Не верь ушам своим: голосовые дипфейки

  • Автор темы Автор темы KrevetO4ka
  • Дата начала Дата начала

KrevetO4ka

Активный пользователь
Регистрация
01.06.2025
Сообщения
1 917
Реакции
1 300
Баллы
113
Аудио-дипфейки, позволяющие подделать голос кого угодно, уже используются для многомиллионных афер. Как создаются такие подделки и можно ли защититься от дипфейк-мошенничества?
 
Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде
Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?
Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.
1000008073.jpg
Голосовой перенос
Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.
1000008074.png
Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.
1000008075.jpg
Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике
Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.
 
Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.



Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.



К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.



Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.



В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.



А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.



Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.



Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.



Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.



А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда
перепроверяйте информацию по другим каналам.
 

Не верь ушам своим: нейросети для клонирования чужого голоса​


Не верь ушам своим: нейросети для клонирования чужого голоса

С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.
Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.

Топ-6 нейросетей для генерации голоса​

Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.

Text-to-Speech от CPA.LIVE​

Text-to-Speech от CPA.LIVE — бесплатный онлайн-сервис для озвучки текста на 20 языках. Работает прямо в браузере, не требует регистрации и позволяет получить реалистичную нейросетевую речь за пару секунд. Поддерживает мужской и женский голос, регулировку скорости, а также экспорт в MP3 и WAV.
Идеально подходит для создания дикторских вставок, озвучки видео, учебных материалов и голосовых фрагментов. Без ограничений на количество запросов, до 500 символов за один раз. Полностью бесплатен, доступен всем без логинов и подписок.

Не верь ушам своим: нейросети для клонирования чужого голоса

ElevenLabs Voice Changer​

Voice Changer ��т ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.

Не верь ушам своим: нейросети для клонирования чужого голоса

AI Voice Changer​

AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.

Не верь ушам своим: нейросети для клонирования чужого голоса

Помимо бесплатной подписки на 5000 токенов, разработчики предлагают 3 платные подписки с расширенным функционалом: цены стартуют с $5,99.

Не верь ушам своим: нейросети для клонирования чужого голоса

Сделать дипфейк голоса можно и на бесплатном тарифе — количество шаблонов ниже в разы, чем на платных подписках.

VoiceMy​

VoiceMy — нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями: цены стартуют с $9,99 в месяц.

Не верь ушам своим: нейросети для клонирования чужого голоса

Wavel​

Wavel — нейросеть, заточенная под маркетологов. Помим�� генерации и клонирования голоса, ИИ умеет конвертировать текст в аудио и переводить речь на нужные языки.

Не верь ушам своим: нейросети для клонирования чужого голоса

Разработчики предлагают пробный тариф, но для полноценных ворков этого не хватит.

Не верь ушам своим: нейросети для клонирования чужого голоса

Цены на платные подписки начинаются с $18 в месяц: чем дороже подписка, тем больше инструментов достанется юзеру.

Resemble AI​

Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.

Не верь ушам своим: нейросети для клонирования чужого голоса

Как самостоятельно создать аудиодипфейк​

Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.

Регистрация​

Переходим на официальный сайт нейросети и жмем клавишу «Get Started Free» на главной странице.

Не верь ушам своим: нейросети для клонирования чужого голоса

Зарегистрировать можно через Google-аккаунт или через почту. Мы выберем Гугл-профиль: так проще и быстрее — по окончании нажимаем клавишу «Sign Up».

Не верь ушам своим: нейросети для клонирования чужого голоса

Далее откроется личный кабинет, а на счет зачислят 10 000 токенов.

Оплата подписки​

В AI Voice Changer 6 тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $5 в месяц. За эти деньги сервис предоставляет 50 минут аудиозаписи клонированных голосов и 30 000 кредитов.

Не верь ушам своим: нейросети для клонирования чужого голоса

К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.

Загрузка голоса в библиотеку​

Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.
Чтобы добавить голос в библиотеку AI Voice Changer, нужно:
  • В главном меню, расположенном слева, переходим в раздел «Голоса».
  • Нажимаем на плюсик, чтобы добавить исходник для клонирования.

Не верь ушам своим: нейросети для клонирования чужого голоса

  • В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».

Не верь ушам своим: нейросети для клонирования чужого голоса

  • Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».

Не верь ушам своим: нейросети для клонирования чужого голоса

Создание аудиодипфейка​

Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью.
Чтобы клонировать голос, нужно:
  • Перейти в раздел «Речь».
  • Выбрать формат преобразования — текст в речь или аудиозапись в речь.
  • Выбрать в библиотеке голосов нужный исходник.
  • Нажать кнопку «Генерация речи».
 
Тема достаточно новая кстати, кот и искусственные интеллекты
 
Назад
Верх