Как GPT-4 научила робота жестикулировать и «играть» на гитаре
Встречайте Alter3 — эволюционировавшего потомка робота-гуманоида, которого в Токийском университете впервые показали миру ещё в 2016-м. Его новый «мозг» — GPT-4 — научил его вести себя почти как человек в самых разных ситуациях. Селфи? Пожалуйста. Подбросить мяч? Легко. Изобразить игру на воздушной гитаре или поедание невидимого попкорна? Без проблем! Конечно, у робота нет ни телефона, ни гитары, но его движения настолько отточены, что вы на секунду можете поверить в реальность происходящего. Неправда ли, забавно наблюдать, как машина играет на несуществующем инструменте?
Робот играет на гитаре. Это движение генерируется GPT-4 с лингвистической обратной связью.
От слова к движению: как GPT-4 дирижирует телом робота
Раньше каждое движение робота нужно было кодировать вручную — труд титанический и невероятно кропотливый. Теперь же всё свелось к простой формуле: вы говорите, GPT-4 переводит ваши слова на язык тела, а робот исполняет. Фантастика? Нет, уже реальность.
Авторы работы объясняют это так: «Мы научились превращать обычные фразы, описывающие человеческие действия, в код, который приводит в движение механические суставы». По сути, они создали универсального переводчика с человеческого на роботизированный.
Alter3 — сложная машина. В его верхней части 43 «сустава», которые должны двигаться согласованно, чтобы получилось что-то осмысленное. Представьте, как сложно было бы запрограммировать это вручную! Теперь же учёные просто отдают команды вслух: «Покажи удивление» или «Изобрази, что ешь попкорн». GPT-4 генерирует под это Python-код, который и запускает андроидный движок робота.
Но и это не всё. Alter3 обладает своего рода памятью. Он запоминает «сценарии» действий, а исследователи могут их уточнять: «Нет, улыбнись шире, повернись чуть левее». Со временем движения становятся быстрее, плавнее и естественнее. Вот, например, как выглядит инструкция для съемки селфи, которую робот успешно выполняет:
- Расплывись в широкой улыбке, глаза — полные ожидания.
- Разверни корпус влево, создай ощущение динамики.
- Подними правую руку, будто в ней телефон.
- Согни локоть, «приближая» камеру к лицу.
- Слегка склони голову набок — пусть поза будет чуть кокетливой.
Команда роботу: изобрази призрака.
«Воспитание» роботов: когда язык становится главным инструментом
Исследователи уверены: использование больших языковых моделей в робототехнике ломает старые представления. Человек и машина начинают сотрудничать на новом, почти интуитивном уровне. Роботы становятся не просто исполнителями, а более смышлеными и адаптивными партнерами.
Учёные даже добавили в поведение Alter3 немного драмы и юмора. В одном из сценариев робот «съедает» воображаемый попкорн, а затем «понимает», что он принадлежал человеку рядом. Его лицо и жесты выражают целую гамму эмоций — от шока до извиняющегося смущения. Что будет, если дать ему настоящий попкорн и посадить рядом живого человека? Ведь Alter3 уже оснащен камерами и способен «видеть» мир. Следующий шаг — научить его учиться не только на словах, но и на нашей реальной, живой реакции.
Именно это и показали в Токийском университете: робот может корректировать свое поведение, наблюдая за людьми. Авторы сравнивают этот процесс с тем, как новорожденный ребенок, глядя на родителей, учится улыбаться или хмуриться. Получается, мы наблюдаем не просто технический прогресс, а рождение новой формы «цифрового детства». Интересно, кем вырастет этот робот?