Как языковые модели меняют создание контента, игр и работу с данными

Говорят, что самые важные тренды 2024 года — это мультимодальные системы. Звучит сложно, но на деле всё просто: это умные помощники, которые понимают не только текст, но и картинки, и, возможно, скоро — звук и видео. Представьте себе: вы описываете сцену словами, а алгоритм создаёт по ней полноценный видеоролик. Фантастика? Уже нет.

Если кажется, что это далёкое будущее, вспомните недавние голливудские скандалы: студии и актёры судились из-за прав на цифровые копии — «аватары». Будущее уже стучится в дверь.

Всё начиналось с текста. Первые умные модели учились понимать и генерировать человеческую речь. Потом к словам добавились изображения. Теперь вы можете набросать описание «закат над горами в стиле Ван Гога», и система нарисует вам именно это. Лидеры здесь — известные GPT-4V и Gemini. Наша отечественная разработка, GigaChat, тоже не отстаёт, используя модель Kandinsky для генерации картинок и даже коротких видеофрагментов.

А в январе Google показала нейросеть Lumiere для создания реалистичных видео, а в феврале OpenAI поразила мир демо Sora. Правда, поиграть с этими игрушками пока могут лишь избранные. Но сам факт их существования меняет правила игры. Мы стоим на пороге новой эры контента.

Как языковые модели меняют создание контента, игр и работу с данными

Переворот на рынке контента

Пока технологии только раскачиваются, но их потенциал способен перевернуть целые индустрии. Возьмём видеоигры. Мечта геймеров и разработчиков — живые, дышащие миры, где каждый неигровой персонаж (NPC) ведёт уникальный диалог, а пейзажи генерируются на лету. Над этим бьются десятилетиями. Возможно, именно большие языковые модели наконец-то дадут нам эту свободу.

А если заглянуть чуть дальше? Скоро мы, возможно, сможем просто попросить онлайн-кинотеатр: «Хочу боевик, где молодой Шварценеггер сражается с Китаем Ривесом в неоновом Токио». И система соберёт такой фильм, не спрашивая разрешения у продюсеров и не оплачивая многомиллионные съёмки. Вопрос авторского права повиснет в воздухе, но технически это уже не фантастика.

Возможности больших языковых моделей

Но давайте спустимся с небес на землю. Пока Голливуд нервничает, в обычной офисной жизни умные алгоритмы уже стали привычными коллегами. Они берут на себя рутину, освобождая нам время для чего-то действительно важного.

Взять, к примеру, сервис для видеоконференций SaluteJazz. Он теперь с помощью GigaChat автоматически пишет краткие итоги встреч — выжимку с решениями и задачами. Больше не нужно сидеть с блокнотом и всё конспектировать.
А в экосистему «МойОфис» встроили помощника, который ускоряет работу с документами. Знакомая история? Технологии тихо встраиваются в наш рабочий поток.

Огромный потенциал скрыт в работе с корпоративной памятью. Все мы сталкивались с ситуацией, когда нужный специалист уволился, а его уникальный опыт и знания ушли вместе с ним. А что, если бы в компании работал «вечный стажёр» — цифровой помощник, который помнит абсолютно всё с момента основания фирмы? Он никогда не спит и не берёт отпуск.

Представьте инженера на заводе. Сломался сложный станок. Раньше пришлось бы звонить в поддержку, долго объяснять, ждать, пока специалист пролистает кипу мануалов. Теперь достаточно снять проблему на телефон, отправить фото или видео — и через секунды получить варианты решения. Пока что это лишь советчик, «второй пилот». Но как долго он останется на вторых ролях?

Для IT-сферы такие помощники — уже реальность. Например, GigaCode может анализировать фрагмент кода и предлагать его наиболее вероятное продолжение прямо в редакторе. Это как автодополнение, но на стероидах. Также доступны поиск по коду и даже проверка на уязвимости.

Развитие мультимодальных систем — это серьёзный шаг к созданию так называемого общего искусственного интеллекта (AGI), умного, как человек. Бывший сотрудник OpenAI Леопольд Ашенбреннер недавно заявил, что AGI может появиться уже к 2027 году. Согласны вы с таким прогнозом или нет, ясно одно: технологический поезд разгоняется. Чтобы не остаться на пустом перроне, пора учиться им пользоваться. Уже сегодня.