Google Lumiere: нейросеть создаёт реалистичное видео по тексту
Кажется, мир генерации видео по тексту только-только встал на ноги, а Google уже заставляет его лететь. Их новая модель Lumiere не просто улучшает картинку — она переосмысливает, как вообще создаётся движение. И результаты, честно говоря, заставляют замереть.
Представьте: вы описываете сцену — «кот в костюме астронавта плывёт в космической туманности» — и через мгновение получаете пятисекундный, невероятно плавный и детализированный ролик. Или берёте свою старую фотографию и «оживляете» её одним запросом. Lumiere делает именно это, стирая грань между «сгенерированным» и «реальным».
Но это ещё не всё. Модель работает как универсальный стилист. Дайте ей одно изображение — и она скопирует его художественную манеру, чтобы создать десятки видео в этой же эстетике. Или возьмите ваше домашнее видео и одним кликом превратите мир в нём в конструкцию из Lego, бумажного оригами или поле цветов. Серьёзно, возможности редактирования выглядят как магия. Неугодного персонажа можно просто «закрасить» — и нейросеть дорисует фон так безупречно, что никто и не заподозрит вмешательства. (Задумался, а сколько неловких моментов из прошлого можно будет так «исправить»? С одной стороны, удобно. С другой — немного жутковато).
Как она это делает? Секрет в архитектуре
В чём же фокус? Исследователи Google объясняют это «пространственно-временной U-Net архитектурой». Звучит сложно, но суть проста. В отличие от многих предшественников, которые строили видео от первого и последнего кадра, с трудом додумывая середину, Lumiere создаёт весь видеоролик целиком и сразу. Она понимает движение в пространстве и времени как единое целое. Отсюда и та самая поразительная плавность, лишённая дерганий и артефактов.
Как бы там ни было на техническом уровне, результат говорит сам за себя. Мы наблюдаем не эволюцию, а маленькую революцию в генеративном видео.
Пока что Lumiere — лишь исследовательский проект. Но факт его существования уже меняет правила игры. Интересно, что будет, когда такие инструменты станут общедоступными? Сможем ли мы все стать режиссёрами своих маленьких вселенных, или же нас захлестнёт волна гиперреалистичного контента, в котором уже не отличишь правду от вымысла? Пока что мы стоим на пороге этого будущего.
Лучше один раз увидеть. Ниже — демонстрационное видео, где все эти возможности Lumiere оживают. Смотрите и удивляйтесь сами.