Почему ChatGPT не смог пройти знаменитый тест Тьюринга на разумность
Не спорю, ChatGPT-4 способен на многое. Он пишет стихи, генерирует код, блещет эрудицией и даже может поддержать светскую беседу с долей иронии. Порой создается полное ощущение диалога с начитанным и сообразительным собеседником.
Но всё портят его знаменитые «галлюцинации» — моменты, когда он с непоколебимой уверенностью несет полнейшую околесицу. Он не осознает смысла своих слов, и это его главная ахиллесова пята. Без способности пройти тест Тьюринга все разговоры о его «мышлении» остаются лишь красивой метафорой. Исследователи подтверждают: он близок, но не дотягивает.
Игра в имитацию
Специалист по лингвистике и машинному обучению Камерон Джонс и профессор когнитивных наук Бенджамин Берген обратились к истокам. Они воссоздали «игру в имитацию», предложенную Аланом Тьюрингом еще 70 лет назад. Суть проста: может ли машина в диалоге обмануть человека, заставив его поверить, что он говорит с другим человеком?
Ученые провели масштабный эксперимент: 650 участников, 1400 бесед. Каждый доброволец общался либо с реальным человеком, либо с GPT-4, пытаясь угадать, кто его визави.
Результаты отрезвляют. GPT-4 смог обмануть людей лишь в 41% случаев. Его предшественник, GPT-3.5, и вовсе показал скромные 5-14%. Для сравнения, живые люди убеждали собеседников в своей человечности в 63% диалогов. Но ключевой порог, установленный самим Тьюрингом для признания машины «мыслящей», — 70% успеха. GPT-4 до этой планки не дотянул. Вывод исследователей категоричен: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга».
Но значит ли это, что тест утратил актуальность? Ученые считают, что нет. Он по-прежнему остается отличным инструментом для оценки беглости и естественности социального взаимодействия с машиной. И их работа показала, что 41% — это уже тревожная цифра. В условиях, когда люди не ожидают подвоха (скажем, в чате поддержки или соцсети), такой шанс на обман уже реален. Последствия могут быть серьезными.
Что же выдавало бота? Участники эксперимента оказались чувствительны к странностям стиля. Слишком идеальная или, наоборот, нарочито небрежная грамматика. Ответы, которые были чересчур пространными или подозрительно краткими. Шаблонность, отсутствие личных деталей и живой спонтанности. Языковые модели учатся давать «наиболее вероятные» ответы, избегая противоречий, и в этой усредненности теряется человеческое своеобразие.
Исследователи полагают, что за развитием этих моделей нужно внимательно следить. Их способность имитировать нас будет только расти. В принципе, ничто не мешает чат-ботам преодолеть заветный 70-процентный рубеж в ближайшие годы. Но пока, друзья, рано сбрасывать со счетов человеческую интуицию. Тест Тьюринга еще держится.