Как заставить ChatGPT думать медленно и почему это делает его умнее
Такие модели, как ChatGPT, обычно выдают ответ мгновенно. Задал вопрос — получил результат, который не всегда точен. Это и есть работа их «быстрого» режима. Но способны ли они сознательно переключиться на более вдумчивый, пошаговый анализ, чтобы избежать ошибок, порождаемых спешкой?
Новое исследование Михала Косински и его коллег из Стэнфордского университета утверждает: да, способны. Более того, при правильном подходе они могут превзойти человека в классических тестах на логику и принятие решений.
Учёные протестировали 10 поколений языковых моделей OpenAI на задачах, требующих быстрой реакции. Ранние версии, вроде GPT-1 и GPT-2, часто «не понимали сути», как отмечает Косински. Но по мере развития их ответы стали всё больше походить на интуитивные, «быстрые» догадки человека.
То, что модели, обученные предсказывать следующее слово, изначально не умели рассуждать логически, не было сюрпризом. «У них нет внутреннего цикла размышлений, — поясняет Косински. — Они не могут просто сказать себе: «Стоп, дай-ка я подумаю над этой проблемой, проверю предположения». Всё, что они делают — интуитивно угадывают следующее слово в последовательности».
Однако исследователи с удивлением обнаружили, что более поздние версии, такие как GPT-3 и ChatGPT, научились применять стратегический, обдуманный подход к решению, если их правильно направить. «Внезапно GPT-3, без какого-либо дополнительного обучения, научился решать такие задачи, — говорит Косински. — Это демонстрирует способность к мгновенному обучению, очень похожему на человеческое».
Притормозите, вы думаете слишком быстро
Вот классическая задача, которую давали моделям: Каждый день количество лилий в озере удваивается. Если для покрытия всего озера требуется 10 дней, то за сколько дней покроется его половина? (Ответ вы найдёте ниже).
Косински объясняет: этот тест на когнитивную рефлексию требует не интуиции, а вдумчивого анализа. Чтобы не попасться в ловушку, нужно замедлиться, взять ручку и расписать задачу по шагам. «Тест создан, чтобы обмануть «быстрое» мышление, — говорит он. — Многие сразу думают: «10 дней на всё озеро, значит, половина — это 5 дней», упуская ключевой момент об экспоненциальном росте». Правильный ответ — 9 дней.
Менее 40% людей справляются с подобными задачами. Ранние версии языковых моделей показывали результат ещё хуже. Но когда GPT-3 получала не просто вопрос, а инструкцию «давай решим с помощью алгебры», она начинала применять цепочку рассуждений, и её точность взлетала с 5% до 30% — рост в 500%!
А ChatGPT-4 с такой подсказкой и использованием пошаговых рассуждений давал верный ответ уже в 80% случаев. И что поразительно: даже когда у модели «отключали» возможность медленно рассуждать, её чистая «интуиция» всё равно превосходила человеческую. Получается, её внутреннее чутьё может быть острее нашего?
Косински считает, что эти результаты доказывают: нейросеть может быть «больше, чем сумма её частей». Архитектура, вдохновлённая мозгом, продолжает проявлять свойства, не заложенные явно при обучении. «Сумасшествие думать, что эта штука может писать стихи, вести диалог, понимать сложные концепции и теперь ещё и рассуждать», — признаётся исследователь.
Но можно ли это назвать мышлением в полном смысле? «Когда люди говорят: «Очевидно, что эти модели не мыслят» — для меня это совсем не очевидно, — замечает Косински. — Если вы наблюдаете спонтанное возникновение способности к рассуждению, почему бы не возникнуть и другим, более сложным навыкам?»
Впрочем, в своей работе учёные осторожно оговариваются: они не приравнивают процессы в ИИ к человеческой когнитивной деятельности. Хотя результаты могут выглядеть похоже, достигаются они зачастую принципиально иными путями.
И всё же Косински задаёт резонный вопрос: «Если бы человек демонстрировал такие же когнитивные способности, мы бы точно говорили о понимании. Почему же, когда то же самое делает модель, мы пытаемся объяснить это чем-то другим? В какой-то момент такие объяснения становятся натянутыми».