EMO: новая технология, которая заставляет фотографии говорить и петь

Иногда кажется, что технологии шагнули так далеко, что вот-вот сотрут грань между реальным и цифровым. Исследователи из Alibaba представили наглядное тому подтверждение. Их разработка берет обычную фотографию лица и… заставляет ее говорить. Или петь. Под любую аудиодорожку. Звучит как магия, не так ли?

Представьте: Мона Лиза декламирует Шекспира. Юный Леонардо Ди Каприо читает рэп. А Одри Хепберн поет вам колыбельную. Это не фантастика — это демонстрация новой модели под названием EMO. Эффект, надо сказать, завораживающий и немного пугающий.

Лаборатории искусственного интеллекта постоянно соревнуются, кто создаст более реалистичную анимацию. Обычно для этого нужна лишь одна фотография. Но команда из Института интеллектуальных вычислений Alibaba пошла дальше. Они добавили звук. Их система анализирует аудиодорожку — речь или пение — и синхронизирует с ней мимику на статичном портрете. Получается живое, говорящее видео.

В основе технологии лежит диффузионное моделирование. Если просто, то модель училась на огромном массиве данных — примерно 250 часов аудио- и видеозаписей. Она изучала, как именно двигаются губы, меняется выражение глаз, напрягаются мышцы лица, когда человек произносит те или иные звуки. Результат этого обучения и есть приложение Emote Portrait Alive, или сокращенно EMO.

Как оживить портрет одним звуковым файлом

EMO: новая технология, которая заставляет фотографии говорить и петь

Самое сложное здесь — поймать не просто движения губ, а тончайшие нюансы мимики. То, что делает лицо живым: легкая улыбка, полуприщур, едва заметное движение бровей. Алгоритм преобразует аудиосигнал в последовательность видеокадров, тщательно воссоздавая естественную артикуляцию и эмоции, которые обычно сопровождают речь.

Исследователи уже опубликовали несколько демонстрационных роликов. Точность поражает: кажется, будто человек на фотографии и вправду произносит эти слова. Длина получившегося видео ограничена только длиной аудиофайла — можете загрузить целую речь или песню.

Сами разработчики признают: такая мощная технология требует серьезных ограничений. Ее потенциальное misuse (неэтичное использование) — от создания фейковых новостей до глубоких фейков — очевидно. Вопрос регулирования встает ребром. Готово ли наше общество к тому, что любая фотография может заговорить чужим голосом?

Когда Джоконда читает классику

Одна из самых ярких демонстраций — Мона Лиза, читающая монолог Розалинды из шекспировской комедии «Как вам это понравится». Представьте себе этот контраст: вечная, загадочная улыбка и страстные, живые слова.

Текст, который она «произносит», звучит так:

«Да, одного, и вот каким образом. Я заставил его вообразить, что я — его возлюбленная. Он должен был, по моему приказу, ежедневно обхаживать меня. А я, подобно молодой луне, непрерывно менялся. Женщина в моем исполнении была то капризной и жеманной, то желанной и любящей; она представала то гордой и неприступной, то веселой и легкомысленной; порою она заливалась слезами...» (перевод Юрия Лифшица).

Согласитесь, есть что-то глубоко символичное в том, что самое известное в мире немое изображение наконец-то обрело голос. И пусть это лишь алгоритм — зрелище заставляет задуматься о будущем, в котором мы уже живем.