ИИ научился читать мысли? Результаты тестов на теорию разума
Исследование, появившееся в журнале Nature Human Behavior, поставило простой и одновременно пугающий эксперимент: взяли обычных добровольцев и несколько мощных языковых моделей (вроде тех, что работают в ChatGPT) и дали им одни и те же задания на «чтение мыслей».
Последние пару лет мы наблюдаем настоящий бум ИИ. Эти модели научились не только складывать слова в предложения, но и улавливать настроение пользователя. И вот ученые задались вопросом: а не добрались ли они уже до самой сердцевины социального интеллекта — до той самой теории разума?
Что это вообще такое — «читать» чужие мысли?
Психологи придумали эти тесты давно, чтобы оценить, насколько человек понимает других в социуме. Мы постоянно считываем невербальные сигналы — взгляд, интонацию, жест. И, что важнее, можем мысленно встать на место собеседника, прочувствовать его ситуацию. Именно поэтому такие тесты обычно не даются маленьким детям, людям с расстройствами аутистического спектра или животным.
Многие эксперты были уверены: машина здесь обречена на провал. Ведь у неё нет эмпатии, того самого внутреннего чувства. Или всё не так однозначно?
Может ли алгоритм вас понять? Результаты шокируют
Ученые устроили масштабную проверку. Они проанализировали ответы почти двух тысяч человек, а затем пропустили те же задания через нейросети, включая знаменитые GPT-4 и Llama 2.
Испытуемым (и цифровым, и живым) предложили пять типов заданий. Нужно было распознать иронию, отличить случайную оговорку от намеренного действия, разобраться с «ложными убеждениями» (вроде теорий заговора о мировой закулисе или всеобщем зомбировании).
И что вы думаете? Модели справились не хуже людей, а флагман GPT-4 и вовсе показал лучший результат по всем фронтам. Llama 2 отстала, но тоже была близка к человеческому уровню.
Авторы осторожно подчеркивают: это не значит, что ИИ вдруг стал таким же умным или научился сопереживать. Но факт остается фактом: в решении абстрактных задач на понимание чужого сознания он уже может дать нам фору. Заставляет задуматься, не правда ли? О чем это говорит — о прогрессе машин или об ограниченности наших тестов?