EMO: новая технология, которая заставляет фотографии говорить и петь
Лаборатории искусственного интеллекта постоянно соревнуются, кто создаст более реалистичную анимацию. Обычно для этого нужна лишь одна фотография. Но команда из Института интеллектуальных вычислений Alibaba пошла дальше. Они добавили звук. Их система анализирует аудиодорожку — речь или пение — и синхронизирует с ней мимику на статичном портрете. Получается живое, говорящее видео.
В основе технологии лежит диффузионное моделирование. Если просто, то модель училась на огромном массиве данных — примерно 250 часов аудио- и видеозаписей. Она изучала, как именно двигаются губы, меняется выражение глаз, напрягаются мышцы лица, когда человек произносит те или иные звуки. Результат этого обучения и есть приложение Emote Portrait Alive, или сокращенно EMO.
Как оживить портрет одним звуковым файлом

Самое сложное здесь — поймать не просто движения губ, а тончайшие нюансы мимики. То, что делает лицо живым: легкая улыбка, полуприщур, едва заметное движение бровей. Алгоритм преобразует аудиосигнал в последовательность видеокадров, тщательно воссоздавая естественную артикуляцию и эмоции, которые обычно сопровождают речь.
Исследователи уже опубликовали несколько демонстрационных роликов. Точность поражает: кажется, будто человек на фотографии и вправду произносит эти слова. Длина получившегося видео ограничена только длиной аудиофайла — можете загрузить целую речь или песню.
Сами разработчики признают: такая мощная технология требует серьезных ограничений. Ее потенциальное misuse (неэтичное использование) — от создания фейковых новостей до глубоких фейков — очевидно. Вопрос регулирования встает ребром. Готово ли наше общество к тому, что любая фотография может заговорить чужим голосом?
Когда Джоконда читает классику
Одна из самых ярких демонстраций — Мона Лиза, читающая монолог Розалинды из шекспировской комедии «Как вам это понравится». Представьте себе этот контраст: вечная, загадочная улыбка и страстные, живые слова.
Текст, который она «произносит», звучит так:
«Да, одного, и вот каким образом. Я заставил его вообразить, что я — его возлюбленная. Он должен был, по моему приказу, ежедневно обхаживать меня. А я, подобно молодой луне, непрерывно менялся. Женщина в моем исполнении была то капризной и жеманной, то желанной и любящей; она представала то гордой и неприступной, то веселой и легкомысленной; порою она заливалась слезами...» (перевод Юрия Лифшица).
Согласитесь, есть что-то глубоко символичное в том, что самое известное в мире немое изображение наконец-то обрело голос. И пусть это лишь алгоритм — зрелище заставляет задуматься о будущем, в котором мы уже живем.