Как ИИ освоил социальное обучение, наблюдая за действиями виртуального эксперта

Люди — прирожденные имитаторы. Мы учимся, глядя друг на друга. Но что если попробовать научить этому самую «несоциальную» сущность — искусственный интеллект? Именно такой эксперимент провели исследователи из Google DeepMind. Они создали систему, которая осваивает навыки в виртуальном мире не методом бесконечных проб и ошибок, а просто копируя действия виртуального «наставника». Представьте себе цифрового ученика, который смотрит, как его ведут по лабиринту, и запоминает путь.

Современный ИИ обычно глотает терабайты данных, чтобы чему-то научиться. Человеку же часто хватает одного показа. А что будет, если попробовать научить алгоритм «смотреть и повторять» как человек? В DeepMind попробовали. И знаете — у них получилось нечто очень любопытное.

Команда из Google DeepMind представила систему, которая демонстрирует зачатки социального обучения. Если проще — этот ИИ учится, подражая. В виртуальной среде его агенты наблюдали за действиями встроенного «эксперта» и, копируя его, осваивали новые задачи быстрее и эффективнее.

Обычные мощные модели, вроде тех, что работают в чат-ботах, обучаются на колоссальных массивах текстов и изображений из интернета. Это ресурсоемко и не всегда эффективно. Не похоже на то, как познаем мир мы, правда? Поэтому ученые ищут альтернативы, и одна из самых перспективных — имитировать человеческое, социальное обучение.

Мы учимся не только на собственных ошибках, но и на чужом примере. Ребенку не нужно проходить тысячу уровней, чтобы понять правила простой игры — достаточно посмотреть, как в нее играет старший брат. Это культурная передача знаний. Исследователи попытались воспроизвести именно этот механизм, поместив ИИ в упрощенный, но требующий смекалки виртуальный мир.

Следуй за экспертом: урок в цифровой песочнице

Как ИИ освоил социальное обучение, наблюдая за действиями виртуального эксперта

Сначала ученые построили виртуальный полигон GoalCycle3D — мир с холмами, препятствиями и разноцветными целями-сферами. Затем туда запустили «агентов» ИИ с чистым, неподготовленным «мозгом». Их задача была проста: перемещаться, обходить препятствия и собирать сферы. Никакой инструкции, только способность обучаться на собственном опыте.

На первом этапе агенты учились методом проб, ошибок и наград за успех. Это долгий путь. Но затем в мир ввели нового персонажа — эксперта, который уже знал оптимальный маршрут. И тут началось самое интересное.

Агенты-новички быстро смекнули: зачем изобретать велосипед, если можно просто следовать за тем, кто уже умеет? Наблюдая за экспертом, они усваивали стратегии гораздо быстрее, чем когда бились в одиночку. Более того, они не просто тупо копировали, а обобщали опыт. Навыки, полученные от наставника в одной локации, они успешно применяли в новых, похожих мирах, даже когда эксперта уже не было рядом. Их модули памяти позволяли сохранять и использовать эти уроки. Вот вам и цифровая культура передачи знаний — прототип социального обучения в действии. Звучит как маленький шаг для алгоритма, но не большой ли это шаг к пониманию интеллекта как такового?