Как GPT-4 научила робота жестикулировать и «играть» на гитаре

Представьте себе картину: в лаборатории Токийского университета робот, подключенный к GPT-4, размахивает руками, будто пытается объяснить что-то очень важное. И делает это со скоростью, почти неотличимой от человеческой. Ученые, наблюдая за этим, провели смелую параллель: так же неуклюже и методом проб и ошибок учатся двигаться новорожденные. Просто у этого «младенца» мозг — большая языковая модель.

И знаете что? Эта связка работает на удивление хорошо. Обучение робота перестало быть только задачей для инженеров, пишущих миллионы строк кода. Теперь можно просто... поговорить с машиной.

Встречайте Alter3 — эволюционировавшего потомка робота-гуманоида, которого в Токийском университете впервые показали миру ещё в 2016-м. Его новый «мозг» — GPT-4 — научил его вести себя почти как человек в самых разных ситуациях. Селфи? Пожалуйста. Подбросить мяч? Легко. Изобразить игру на воздушной гитаре или поедание невидимого попкорна? Без проблем! Конечно, у робота нет ни телефона, ни гитары, но его движения настолько отточены, что вы на секунду можете поверить в реальность происходящего. Неправда ли, забавно наблюдать, как машина играет на несуществующем инструменте?

Робот играет на гитаре. Это движение генерируется GPT-4 с лингвистической обратной связью.

От слова к движению: как GPT-4 дирижирует телом робота

Раньше каждое движение робота нужно было кодировать вручную — труд титанический и невероятно кропотливый. Теперь же всё свелось к простой формуле: вы говорите, GPT-4 переводит ваши слова на язык тела, а робот исполняет. Фантастика? Нет, уже реальность.

Авторы работы объясняют это так: «Мы научились превращать обычные фразы, описывающие человеческие действия, в код, который приводит в движение механические суставы». По сути, они создали универсального переводчика с человеческого на роботизированный.

Alter3 — сложная машина. В его верхней части 43 «сустава», которые должны двигаться согласованно, чтобы получилось что-то осмысленное. Представьте, как сложно было бы запрограммировать это вручную! Теперь же учёные просто отдают команды вслух: «Покажи удивление» или «Изобрази, что ешь попкорн». GPT-4 генерирует под это Python-код, который и запускает андроидный движок робота.

Но и это не всё. Alter3 обладает своего рода памятью. Он запоминает «сценарии» действий, а исследователи могут их уточнять: «Нет, улыбнись шире, повернись чуть левее». Со временем движения становятся быстрее, плавнее и естественнее. Вот, например, как выглядит инструкция для съемки селфи, которую робот успешно выполняет:

Расплывись в широкой улыбке, глаза — полные ожидания.
Разверни корпус влево, создай ощущение динамики.
Подними правую руку, будто в ней телефон.
Согни локоть, «приближая» камеру к лицу.
Слегка склони голову набок — пусть поза будет чуть кокетливой.

Команда роботу: изобрази призрака.

«Воспитание» роботов: когда язык становится главным инструментом

Исследователи уверены: использование больших языковых моделей в робототехнике ломает старые представления. Человек и машина начинают сотрудничать на новом, почти интуитивном уровне. Роботы становятся не просто исполнителями, а более смышлеными и адаптивными партнерами.

Учёные даже добавили в поведение Alter3 немного драмы и юмора. В одном из сценариев робот «съедает» воображаемый попкорн, а затем «понимает», что он принадлежал человеку рядом. Его лицо и жесты выражают целую гамму эмоций — от шока до извиняющегося смущения. Что будет, если дать ему настоящий попкорн и посадить рядом живого человека? Ведь Alter3 уже оснащен камерами и способен «видеть» мир. Следующий шаг — научить его учиться не только на словах, но и на нашей реальной, живой реакции.

Именно это и показали в Токийском университете: робот может корректировать свое поведение, наблюдая за людьми. Авторы сравнивают этот процесс с тем, как новорожденный ребенок, глядя на родителей, учится улыбаться или хмуриться. Получается, мы наблюдаем не просто технический прогресс, а рождение новой формы «цифрового детства». Интересно, кем вырастет этот робот?