Почему мозг распознаёт дипфейк: границы синтеза искусственного голоса

Наш мозг — прирожденный детектив. И, как выяснили исследователи из Цюрихского университета, он куда проницательнее нас самих, когда речь заходит о дипфейках. Пока мы пытаемся уловить фальшь в голосе, две области мозга уже безошибочно вынесли свой вердикт: «Это подделка!».

С визуальными подделками ситуация странная: наш мозг почти одинаково реагирует на фото реального человека и на портрет, сгенерированный нейросетью. Мы легко обманываемся. Но с голосом начинается настоящее волшебство — или, скорее, его полное отсутствие для нашего нейронного «сыщика».

Синтез голоса — одна из старейших амбиций искусственного интеллекта. Но вот что удивительно: несмотря на все триумфальные заголовки, мы до сих пор окружены лишь модификациями реальных голосов. Все «поющие» и «разговаривающие» модели в основе своей имеют записи живых людей. Нейросеть может исказить тембр, изменить интонацию, но создать с нуля убедительный, абсолютно «несуществующий» голос, который выдержал бы долгое общение, — это пока задача нерешенная. Почему же технология, рисующая невероятные изображения, спотыкается на звуке?

Именно этим вопросом задались цюрихские ученые. Они решили не спрашивать людей, а заглянуть прямо в источник восприятия — в сам мозг, чтобы увидеть разницу в его работе.

Как мозг обрабатывает голос

Почему мозг распознаёт дипфейк: границы синтеза искусственного голоса

В эксперименте участвовали 25 добровольцев. Их задача была проста: определить, настоящий перед ними голос или синтезированный. Люди справлялись почти идеально. А тем временем аппарат фМРТ пристально следил за активностью их мозга. И вот что обнаружилось: паттерны активности были совершенно разными в зависимости от происхождения голоса.

Первая загадка — слуховая кора. Эта часть мозга, ответственная за первичную обработку звуков, реагировала на «фейк» иначе, чем на натуральный голос. Это значит, что современные алгоритмы синтеза где-то допускают микроскопические, но принципиальные ошибки в звучании. Ученые пока не могут точно сказать, в чем именно они заключаются, но для мозга разница очевидна. Интересно, какие именно «нотки» натуральности мы, сами того не осознавая, считываем?

Вторая область, которая выдала подделку, — прилежащее ядро (NAcc). Это наш внутренний «центр вознаграждения», который загорается, когда мы узнаем что-то приятное или знакомое. На синтезированный голос он не отреагировал. Похоже, искусственный голос лишен той самой неуловимой «души» или индивидуальности, которая вызывает у нас подсознательное чувство узнавания и доверия. Без этого «вознаграждения» убедительность голоса резко падает.

Вывод исследователей двойственен. С одной стороны, сегодня создать совершенный синтетический голос с нуля практически невозможно — наш мозг видит подвох. С другой стороны, прогресс в нейросетях настолько стремителен, что, возможно, уже завтра этот барьер будет взят. И тогда нашему внутреннему детективу придется несладко.