ИИ научился читать мысли? Результаты тестов на теорию разума

Вот вам новость, от которой можно слегка опешить: международная команда ученых выяснила, что большие языковые модели могут обставлять нас, людей, в тестах на теорию разума. Да-да, в тех самых, что проверяют нашу социальную проницательность.

Если проще, теория разума — это умение заглянуть в чужую голову. Способность понять, что другой человек видит мир иначе, чем ты, и догадаться о его мыслях, намерениях или заблуждениях. Казалось бы, чисто человеческий навык.

Исследование, появившееся в журнале Nature Human Behavior, поставило простой и одновременно пугающий эксперимент: взяли обычных добровольцев и несколько мощных языковых моделей (вроде тех, что работают в ChatGPT) и дали им одни и те же задания на «чтение мыслей».

Последние пару лет мы наблюдаем настоящий бум ИИ. Эти модели научились не только складывать слова в предложения, но и улавливать настроение пользователя. И вот ученые задались вопросом: а не добрались ли они уже до самой сердцевины социального интеллекта — до той самой теории разума?

Что это вообще такое — «читать» чужие мысли?

ИИ научился читать мысли? Результаты тестов на теорию разума

Психологи придумали эти тесты давно, чтобы оценить, насколько человек понимает других в социуме. Мы постоянно считываем невербальные сигналы — взгляд, интонацию, жест. И, что важнее, можем мысленно встать на место собеседника, прочувствовать его ситуацию. Именно поэтому такие тесты обычно не даются маленьким детям, людям с расстройствами аутистического спектра или животным.

Многие эксперты были уверены: машина здесь обречена на провал. Ведь у неё нет эмпатии, того самого внутреннего чувства. Или всё не так однозначно?

Может ли алгоритм вас понять? Результаты шокируют

Ученые устроили масштабную проверку. Они проанализировали ответы почти двух тысяч человек, а затем пропустили те же задания через нейросети, включая знаменитые GPT-4 и Llama 2.

Испытуемым (и цифровым, и живым) предложили пять типов заданий. Нужно было распознать иронию, отличить случайную оговорку от намеренного действия, разобраться с «ложными убеждениями» (вроде теорий заговора о мировой закулисе или всеобщем зомбировании).

И что вы думаете? Модели справились не хуже людей, а флагман GPT-4 и вовсе показал лучший результат по всем фронтам. Llama 2 отстала, но тоже была близка к человеческому уровню.

Авторы осторожно подчеркивают: это не значит, что ИИ вдруг стал таким же умным или научился сопереживать. Но факт остается фактом: в решении абстрактных задач на понимание чужого сознания он уже может дать нам фору. Заставляет задуматься, не правда ли? О чем это говорит — о прогрессе машин или об ограниченности наших тестов?