Как робот учится наводить порядок в чужой квартире? Первые успехи
Помните знаменитый «кофейный тест» от сооснователя Apple Стива Возняка? Это некий святой Грааль для робототехников. Его суть проста и гениальна: настоящим испытанием для машины станет возможность зайти в незнакомый дом, самостоятельно найти на кухне кофе и кофемашину, приготовить напиток и разлить по чашкам. Вся соль — в непредсказуемости обстановки. Где лежат ложки? Как выглядит ваша конкретная кофеварка? Куда вы обычно ставите кружки? Для человека — мелочи, для робота — лабиринт без карты.
И кажется, мы стали на шаг ближе к его выполнению. Серьезный шаг.

OK-Robot, или Порядок по запросу
Итак, знакомьтесь: OK-Robot. Это творение инженеров, которое может стать прообразом будущего домашнего помощника. Его задача — слушать команды на естественном языке вроде «отнеси эту книгу на полку» или «выброси пустую банку» и выполнять их, впервые оказавшись в помещении. Звучит как магия, но в основе — хитрое сочетание технологий.
Исследователи обратили внимание на два важных факта. Во-первых, современные модели визуального языка (VLM) научились блестяще «понимать», что они видят на картинке, и связывать это с человеческой речью. Во-вторых, «руки» роботов стали гораздо ловчее и аккуратнее. Но соединить «умные глаза» с умелыми руками в одном автономном устройстве — задача нетривиальная. Именно это и попытались сделать ученые.
Взяв за основу мобильного робота от компании Hello Robot (представьте себе тележку с манипулятором), они оснастили его мощной VLM-моделью. Дальше — самое интересное. Робота привезли в 10 абсолютно разных домов добровольцев. С помощью обычного iPhone помещение сканировали, создавая его 3D-карту. После этого машину вводили в комнату, где она раньше не бывала, и давали задания: «переложи зеленую кружку со стола в раковину» или «убери плюшевого медвежонка в коробку».
Результаты? Из 170 попыток робот справился с 58,5%. Не идеально, но впечатляюще для нулевого знакомства со средой. А вот что по-настоящему интересно: когда операторы предварительно наводили минимальный порядок (убирали разбросанные вещи, освобождали поверхности), успешность робота взлетала до 82%! Он, как и человек, лучше ориентируется, когда вокруг не полный хаос. Заставляет задуматься, не правда ли?
Самое важное в этой системе — принцип «нулевого старта». Робота не учили на конкретных интерьерах; он применял общие знания о мире к новой, невиданной обстановке. Это и есть зачатки того самого адаптивного интеллекта, о котором мечтал Возняк.
Ученые уверены, что их работа открывает дорогу для создания по-настоящему полезных домашних роботов на базе визуальных языковых моделей. Они научились не просто видеть и хватать, а связывать это с нашими словами.
Так что же, следующий шаг — приготовить кофе в незнакомой кухне? Для этого, кажется, уже есть почти все необходимое. Осталось собрать пазл. И, возможно, скоро мы действительно сможем сказать: «Эй, OK-Robot, свари мне капучино».