Как пройти «кофейный тест»: алгоритм научили адаптироваться без переобучения

Учёные совершили любопытный трюк: они научились расширять возможности умных алгоритмов, не заставляя их учиться заново с нуля. Представьте, что вы научили помощника варить кофе, а теперь хотите, чтобы он наливал его в любую кружку. Раньше пришлось бы переучивать его заново. Теперь, кажется, есть способ проще.

Модель назвали Headless-AD. AD — это «алгоритмическая дистилляция». А почему «безголовый»? Сейчас узнаете. Это довольно остроумно.

Что такое «кофейный тест» и почему его никто не проходит?

Сооснователь Apple Стив Возняк когда-то предложил простой, но гениальный тест на интеллект для робота, который окрестили «кофейным». Суть в том, чтобы машина могла войти в незнакомый дом, найти на кухне всё необходимое и приготовить чашку кофе. Звучит просто, правда?

Но вот загвоздка: ни один робот, даже виртуальный, до сих пор этот тест не сдал. Почему? Всё упирается в детали. Обучили алгоритм работать с одной кофемашиной и определённой чашкой — и он в них неплох. Но стоит подсунуть ему другую чашку, с иной ручкой или без неё, как он теряется. Всё «примерно» то же самое, но не совсем. И чтобы адаптироваться, системе нужно полноценное переобучение. Не слишком ли это расточительно?

Как научить ИИ импровизировать? Убрать ему «голову»

Исследователи из T-Bank AI Research и Института AIRI нашли способ, как наделить алгоритм гибкостью. Их цель — позволить системе решать похожие, но не идентичные задачи, не проходя через долгий и дорогой цикл полного переобучения. Иными словами, сделать пространство её действий не жёстко зафиксированным, а управляемым контекстом самой задачи.

Сегодня мощные модели, подобные тем, что работают с языком, обучают на огромных, но строго отобранных данных. Настроить такую «монументальную» систему под частную задачу пользователя — огромная работа. Обычно мы просто вводим свой запрос в диалоговое окно, и модель, исходя из контекста, пытается подстроиться. Чем больше это окно, тем больше у неё возможностей понять, чего мы хотим.

Как пройти «кофейный тест»: алгоритм научили адаптироваться без переобучения

Вернёмся к нашему роботу-бариста. Допустим, он уже умеет ходить, видеть предметы и манипулировать ими. Приготовление кофе — это конкретный контекст, который ставит перед ним задачу. Как заставить его работать с любой чашкой, которую он видит впервые?

Ответ парадоксален: нужно не добавлять ему знаний, а, наоборот, кое-что убрать.

Необходимо расширить пространство возможных действий, которые определяются контекстом, а не жёстко прописаны в его «мозгу». Действия должны достраиваться на лету, в зависимости от ситуации.

Именно этого добились учёные в модели Headless-AD. Они, образно говоря, «снесли голову» алгоритму. Если говорить на техническом жаргоне — убрали финальный слой нейронной сети, который как раз и диктует строгий список разрешённых действий. Пространство действий резко расширилось, но не стало хаотичным — оно по-прежнему ограничено логикой задачи.

Ключевая фишка — использование случайных входных векторов. В жёсткой системе «стимул-реакция» всё предопределено: пошёл дождь — открыл зонт. Но что, если зонта нет? Или если хочется не открывать его, а спрятаться под навесом? Если все возможные реакции заранее перечислены, система не сможет импровизировать. А если нет? Если мы хотим, чтобы она могла брать чашку и без ручки, и с ручкой необычной формы, которую мы даже не предполагали?

Когда на вход подаётся случайный вектор (тот самый «стимул»), алгоритм начинает его обрабатывать, опираясь на своё внутреннее, «интуитивное» понимание контекста. Сначала, конечно, выходит криво. Но здесь включается система обратной связи: за удачные действия алгоритм получает «награду». Чем точнее действие, тем выше награда. Постепенно связь между конкретным вектором и правильным действием укрепляется. Поскольку выбор действий теперь не ограничен жёстким списком, система может научиться делать то, о чём изначально даже «не подозревала». И всё это — без мучительного переобучения всей сети. Стимул «дождь» может привести не к действию «открыть зонт», а к решению «зайти в кафе и переждать». Разве это не похоже на проблески здравого смысла?

Результаты этого исследования были представлены на авторитетной международной конференции по машинному обучению ICML. Со всеми деталями, исходным кодом и экспериментами можно ознакомиться в открытой научной статье и на GitHub. Похоже, эпоха тупых, заточенных под одну задачу алгоритмов постепенно уходит в прошлое.