Создание уникального голоса стало возможным благодаря современным технологиям, таким как Voice Generator. В этой статье мы рассмотрим, как можно создать собственный голос, какие шаги для этого необходимы, и покажем реальные примеры созданных голосов.
Эта технология открывает новые возможности для блогеров, создателей контента, разработчиков приложений и многих других.
Примеры Создания Голоса
Одним из ключевых аспектов создания голоса является возможность сравнить оригинал с получившимся результатом. Давайте рассмотрим, как это выглядит на практике.
• Оригинальный голос:
• Новый голос:
Хотя созданный голос получился качественным, он лишь отдаленно напоминает оригинал. Это связано с тем, что мы сознательно снизили уровень схожести ниже 90%, чтобы избежать потенциальных проблем с использованием голоса в банковских продуктах и других сферах, где голос может быть частью персональных данных и использоваться для идентификации.
• Оригинальный голос:
• Новый голос:
Интерпретация в контексте схожести голосов
Косинусное сходство 1 означает, что два вектора (в данном случае, MFCC оригинального и клонированного голосов) идентичны, что соответствует 100% схожести.
Косинусное сходство 0 указывает на полное отсутствие сходства (перпендикулярные векторы).
Значение 0.89 говорит о том, что оригинальный и клонированный голоса имеют схожесть около 89%, что можно считать высоким уровнем сходства.
Наше решение также очищает голос от сильных эмоциональных колебаний, делая его более ровным и единообразным по скорости чтения. Такой голос отлично подходит для большинства коммерческих задач. Тем не менее, мы получаем запросы на возможность контроля эмоций для создания профессиональных рекламных озвучек для известных брендов.
Если вам необходима такая функция, присоединяйтесь к нашему Telegram-каналу t.me/texttospeech_generator и примите участие в голосовании.
Технические особенности использования AI Voice Generator
Теперь рассмотрим, как можно создать свой голос с помощью Voice Generator.
Подготовка данных:
• Формат: предпочтительно использовать аудио файлы в формате WAV или MP3, 48kHz с максимальным битрейтом. Если данных с такими характеристиками нет, можно использовать и худшее качество аудио, но это окажет влияние на результат. (Пример голоса в начале статьи был создан из MP3 файла 320 кбит сек)
• Размер файлов: рекомендуется загружать файлы продолжительностью не более 20 секунд. Хотя допустимая продолжительность аудио файла 10 минут.
Максимально возможный объем загрузки за один раз 250 мегабайт, а максимальный размер файла не более 200 мегабайт.
Пространство, выделенное пользователю, под аудио данные 1 ГБ.
• Качество: аудио должно быть чистым, без посторонних шумов и фоновой музыки или звуков.
• Объем данных: аудиоматериалы должны иметь продолжительность от 30 до 100 минут.
• Тональность : поддерживайте единообразную тональность голоса во всех записях. Соблюдайте разнообразие интонаций от восклицательных до повествовательных.
• Паузы: перед началом и после окончания аудиоданных должна присутствовать короткая пауза.
Процесс создания:
• Создание проекта: Начните с создания нового проекта в нейросети для создания голоса.
• Загрузка файлов: Загрузите подготовленные аудио файлы.
• Оценка качества: Система автоматически оценит качество файлов по параметрам, таким как чистота звука, эмоциональная окраска, прерывистость речи и громкость.
• Генерация голоса: После оценки и подтверждения качества файлов, запустите процесс генерации нового голоса.
• Обучение модели: Требуемое время для обучения голосовой модели примерно 24 часа. После готовности вам придет уведомление на электронную почту, а созданный голос появится в личном кабинете. На данный момент количество попыток обучения голоса и количество активных голосов ограничено: 1 Активный голос и 10 попыток обучения в месяц.
• Стоимость: Актуальные цены можно посмотреть на странице тарифов.