Не верь ушам своим: нейросети для клонирования чужого голоса
С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.
Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.
Топ-6 нейросетей для генерации голоса
Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.
Text-to-Speech от CPA.LIVE
Text-to-Speech от CPA.LIVE — бесплатный онлайн-сервис для озвучки текста на 20 языках. Работает прямо в браузере, не требует регистрации и позволяет получить реалистичную нейросетевую речь за пару секунд. Поддерживает мужской и женский голос, регулировку скорости, а также экспорт в MP3 и WAV.
Идеально подходит для создания дикторских вставок, озвучки видео, учебных материалов и голосовых фрагментов. Без ограничений на количество запросов, до 500 символов за один раз. Полностью бесплатен, доступен всем без логинов и подписок.
ElevenLabs Voice Changer
Voice Changer ��т ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.
AI Voice Changer
AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.
Помимо бесплатной подписки на 5000 токенов, разработчики предлагают 3 платные подписки с расширенным функционалом: цены стартуют с $5,99.
Сделать дипфейк голоса можно и на бесплатном тарифе — количество шаблонов ниже в разы, чем на платных подписках.
VoiceMy
VoiceMy — нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями: цены стартуют с $9,99 в месяц.
Wavel
Wavel — нейросеть, заточенная под маркетологов. Помим�� генерации и клонирования голоса, ИИ умеет конвертировать текст в аудио и переводить речь на нужные языки.
Разработчики предлагают пробный тариф, но для полноценных ворков этого не хватит.
Цены на платные подписки начинаются с $18 в месяц: чем дороже подписка, тем больше инструментов достанется юзеру.
Resemble AI
Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.
Как самостоятельно создать аудиодипфейк
Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о
Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.
Регистрация
Переходим на
официальный сайт нейросети и жмем клавишу «Get Started Free» на главной странице.
Зарегистрировать можно через Google-аккаунт или через почту. Мы выберем Гугл-профиль: так проще и быстрее — по окончании нажимаем клавишу «Sign Up».
Далее откроется личный кабинет, а на счет зачислят 10 000 токенов.
Оплата подписки
В AI Voice Changer 6 тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $5 в месяц. За эти деньги сервис предоставляет 50 минут аудиозаписи клонированных голосов и 30 000 кредитов.
К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.
Загрузка голоса в библиотеку
Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.
Чтобы добавить голос в библиотеку AI Voice Changer, нужно:
- В главном меню, расположенном слева, переходим в раздел «Голоса».
- Нажимаем на плюсик, чтобы добавить исходник для клонирования.
- В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».
- Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».
Создание аудиодипфейка
Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью.
Чтобы клонировать голос, нужно:
- Перейти в раздел «Речь».
- Выбрать формат преобразования — текст в речь или аудиозапись в речь.
- Выбрать в библиотеке голосов нужный исходник.
- Нажать кнопку «Генерация речи».