Почему ChatGPT не смог пройти знаменитый тест Тьюринга на разумность

Может ли самый продвинутый чат-бот нашего времени, ChatGPT-4, выдать себя за живого человека? Ученые из Калифорнийского университета в Сан-Диего устроили ему проверку по всем канонам классического теста Тьюринга. Результат оказался неоднозначным.

Один фундаментальный вопрос не дает покоя: прошел ли этот ИИ-феномен знаменитый тест Алана Тьюринга — тот самый экзамен на «разумность» машины? Ответ, как выяснилось, пока отрицательный.

Не спорю, ChatGPT-4 способен на многое. Он пишет стихи, генерирует код, блещет эрудицией и даже может поддержать светскую беседу с долей иронии. Порой создается полное ощущение диалога с начитанным и сообразительным собеседником.

Но всё портят его знаменитые «галлюцинации» — моменты, когда он с непоколебимой уверенностью несет полнейшую околесицу. Он не осознает смысла своих слов, и это его главная ахиллесова пята. Без способности пройти тест Тьюринга все разговоры о его «мышлении» остаются лишь красивой метафорой. Исследователи подтверждают: он близок, но не дотягивает.

Игра в имитацию

Почему ChatGPT не смог пройти знаменитый тест Тьюринга на разумность

Специалист по лингвистике и машинному обучению Камерон Джонс и профессор когнитивных наук Бенджамин Берген обратились к истокам. Они воссоздали «игру в имитацию», предложенную Аланом Тьюрингом еще 70 лет назад. Суть проста: может ли машина в диалоге обмануть человека, заставив его поверить, что он говорит с другим человеком?

Ученые провели масштабный эксперимент: 650 участников, 1400 бесед. Каждый доброволец общался либо с реальным человеком, либо с GPT-4, пытаясь угадать, кто его визави.

Результаты отрезвляют. GPT-4 смог обмануть людей лишь в 41% случаев. Его предшественник, GPT-3.5, и вовсе показал скромные 5-14%. Для сравнения, живые люди убеждали собеседников в своей человечности в 63% диалогов. Но ключевой порог, установленный самим Тьюрингом для признания машины «мыслящей», — 70% успеха. GPT-4 до этой планки не дотянул. Вывод исследователей категоричен: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга».

Но значит ли это, что тест утратил актуальность? Ученые считают, что нет. Он по-прежнему остается отличным инструментом для оценки беглости и естественности социального взаимодействия с машиной. И их работа показала, что 41% — это уже тревожная цифра. В условиях, когда люди не ожидают подвоха (скажем, в чате поддержки или соцсети), такой шанс на обман уже реален. Последствия могут быть серьезными.

Что же выдавало бота? Участники эксперимента оказались чувствительны к странностям стиля. Слишком идеальная или, наоборот, нарочито небрежная грамматика. Ответы, которые были чересчур пространными или подозрительно краткими. Шаблонность, отсутствие личных деталей и живой спонтанности. Языковые модели учатся давать «наиболее вероятные» ответы, избегая противоречий, и в этой усредненности теряется человеческое своеобразие.

Исследователи полагают, что за развитием этих моделей нужно внимательно следить. Их способность имитировать нас будет только расти. В принципе, ничто не мешает чат-ботам преодолеть заветный 70-процентный рубеж в ближайшие годы. Но пока, друзья, рано сбрасывать со счетов человеческую интуицию. Тест Тьюринга еще держится.