Как заставить ИИ думать перед ответом: новый подход к обучению чат-ботов

Что, если вашей умной помощнице просто нужно... немного подумать? Команда из Стэнфорда и Notbad AI Inc. предложила интересное решение: заставить чат-ботов внутренне «обдумывать» возможные ответы перед тем, как выдать финальный. Это требует чуть больше времени, но обещает кардинально улучшить качество диалога. Самое приятное — подход можно применить к любой существующей модели.

Современные языковые модели страдают от излишней уверенности: они редко сомневаются и часто выдают первое, что пришло в голову. А что, если научить их немного поразмыслить, прежде чем говорить?

Разработчики из Стэнфорда и Notbad AI Inc. создали метод, который побуждает нейросети не спешить с ответом. Вместо мгновенной генерации, бот теперь может рассмотреть несколько внутренних вариантов, оценить их и лишь потом выбрать лучший.

Представьте, как обычно работает чат-бот. Он не размышляет, не взвешивает «за» и «против» — он просто выдает наиболее вероятную с его точки зрения фразу, основанную на обучении. Если бы человек общался так, мы бы сказали, что он болтает, не подумав. Исследователи решили исправить эту фундаментальную разницу.

Что, если ИИ начнёт проверять себя сам?

Как заставить ИИ думать перед ответом: новый подход к обучению чат-ботов

Новый подход даёт машинам возможность сделать небольшую паузу для раздумий. Учёные полагают, что именно этот момент внутренней рефлексии может сделать ответы ботов куда точнее и, как ни странно, чуть более человечными. Ведь что такое мышление, если не внутренний диалог с самим собой?

Алгоритм, названный Quiet-STaR, действует как внутренний советник. Сначала он просит модель сгенерировать несколько возможных реплик на запрос. Потом анализирует их, сравнивая с исходным вопросом, и помогает выбрать самую удачную. Более того, система умеет учиться на этом опыте, постепенно улучшая свою способность к анализу. По сути, это первый шаг к внутреннему критическому мышлению.

Чтобы проверить идею, алгоритм подключили к открытой модели Mistral 7B. Результаты говорят сами за себя: на стандартном тесте на логические рассуждения модель с «размышлениями» набрала 47,2%, против 36,3% у обычной версии. Особенно впечатляющим стал рост результатов в математических задачах. Неужели ключ к интеллекту — просто не торопиться?

Разработчики подчёркивают, что их метод — это своего рода универсальный модуль, который теоретически можно подключить к любому современному чат-боту. Конечно, для этого потребуются усилия создателей самих моделей. Но цель ясна: наделить машины способностью к мгновенному самоанализу, чтобы их ответы перестали быть бездумными и стали взвешенными. Будущее, где боты сначала думают, а потом говорят, кажется гораздо интереснее, не правда ли?