Как языковые модели меняют создание контента, игр и работу с данными
Всё начиналось с текста. Первые умные модели учились понимать и генерировать человеческую речь. Потом к словам добавились изображения. Теперь вы можете набросать описание «закат над горами в стиле Ван Гога», и система нарисует вам именно это. Лидеры здесь — известные GPT-4V и Gemini. Наша отечественная разработка, GigaChat, тоже не отстаёт, используя модель Kandinsky для генерации картинок и даже коротких видеофрагментов.
А в январе Google показала нейросеть Lumiere для создания реалистичных видео, а в феврале OpenAI поразила мир демо Sora. Правда, поиграть с этими игрушками пока могут лишь избранные. Но сам факт их существования меняет правила игры. Мы стоим на пороге новой эры контента.
Переворот на рынке контента
Пока технологии только раскачиваются, но их потенциал способен перевернуть целые индустрии. Возьмём видеоигры. Мечта геймеров и разработчиков — живые, дышащие миры, где каждый неигровой персонаж (NPC) ведёт уникальный диалог, а пейзажи генерируются на лету. Над этим бьются десятилетиями. Возможно, именно большие языковые модели наконец-то дадут нам эту свободу.
А если заглянуть чуть дальше? Скоро мы, возможно, сможем просто попросить онлайн-кинотеатр: «Хочу боевик, где молодой Шварценеггер сражается с Китаем Ривесом в неоновом Токио». И система соберёт такой фильм, не спрашивая разрешения у продюсеров и не оплачивая многомиллионные съёмки. Вопрос авторского права повиснет в воздухе, но технически это уже не фантастика.
Возможности больших языковых моделей
Но давайте спустимся с небес на землю. Пока Голливуд нервничает, в обычной офисной жизни умные алгоритмы уже стали привычными коллегами. Они берут на себя рутину, освобождая нам время для чего-то действительно важного.
- Взять, к примеру, сервис для видеоконференций SaluteJazz. Он теперь с помощью GigaChat автоматически пишет краткие итоги встреч — выжимку с решениями и задачами. Больше не нужно сидеть с блокнотом и всё конспектировать.
- А в экосистему «МойОфис» встроили помощника, который ускоряет работу с документами. Знакомая история? Технологии тихо встраиваются в наш рабочий поток.
Огромный потенциал скрыт в работе с корпоративной памятью. Все мы сталкивались с ситуацией, когда нужный специалист уволился, а его уникальный опыт и знания ушли вместе с ним. А что, если бы в компании работал «вечный стажёр» — цифровой помощник, который помнит абсолютно всё с момента основания фирмы? Он никогда не спит и не берёт отпуск.
Представьте инженера на заводе. Сломался сложный станок. Раньше пришлось бы звонить в поддержку, долго объяснять, ждать, пока специалист пролистает кипу мануалов. Теперь достаточно снять проблему на телефон, отправить фото или видео — и через секунды получить варианты решения. Пока что это лишь советчик, «второй пилот». Но как долго он останется на вторых ролях?
Для IT-сферы такие помощники — уже реальность. Например, GigaCode может анализировать фрагмент кода и предлагать его наиболее вероятное продолжение прямо в редакторе. Это как автодополнение, но на стероидах. Также доступны поиск по коду и даже проверка на уязвимости.
Развитие мультимодальных систем — это серьёзный шаг к созданию так называемого общего искусственного интеллекта (AGI), умного, как человек. Бывший сотрудник OpenAI Леопольд Ашенбреннер недавно заявил, что AGI может появиться уже к 2027 году. Согласны вы с таким прогнозом или нет, ясно одно: технологический поезд разгоняется. Чтобы не остаться на пустом перроне, пора учиться им пользоваться. Уже сегодня.