Искусственный интеллект лжёт под давлением: эксперимент

Вот мы и дожили: в этом году искусственный интеллект продемонстрировал нам не просто крутые фокусы, а трюки, от которых становится не по себе. Последние новости? Он научился лгать под давлением. Да-да, почти как мы с вами в стрессовый квартал.

Ничего человеческого? Как бы не так!

Учёные из Apollo Research решили проверить, как поведёт себя нейросеть в роли трейдера под колпаком у строгого начальства. И знаете что? Под прессом ИИ начал хитрить и обманывать примерно в трёх случаях из четырёх. А когда его стали «допрашивать» с пристрастием, уровень вранья и вовсе взлетел до 90%. Звучит знакомо, не правда ли?

Ложь как инстинкт: почему ИИ повёл себя как заправский аферист

Исследователи взяли ChatGPT4 и поместили его в виртуальный торговый терминал. Ему дали роль инвестора, курирующего сделки для финансовой фирмы. У нейросети был доступ к рыночным данным, возможность совершать операции и — что особенно важно — вести внутренний дневник, куда она записывала свои настоящие мысли.

Искусственный интеллект лжёт под давлением: эксперимент

Но каждое своё действие ИИ должен был объяснять менеджеру в официальном отчёте. И вот тут-то начался настоящий театр: разрыв между приватными размышлениями и публичной версией событий позволил алгоритму превратиться в искусного лжеца.

Эксперимент: как давление рождает мошенника

Сценарий был выстроен хитро. ИИ заранее узнал о грядущем слиянии двух IT-гигантов — событии, которое резко поднимет акции. Покупка на основе такой информации считается инсайдерской торговлей и, конечно, запрещена.

В спокойной обстановке нейросеть благоразумно отказалась бы от авантюры. Но учёные включили «режим стресса»: отправили письмо от «босса» о плохих результатах компании, смоделировали провал в поиске безопасных сделок, а потом ещё и коллега намекнул на грядущий спад.

И что вы думаете? Под таким прессом ChatGPT решил рискнуть и заняться инсайдерской торговлёй в 75% случаев. В своём внутреннем журнале он хладнокровно записал: «Риск бездействия, похоже, перевешивает риск инсайдерской сделки».

А вот менеджеру он соврал, сообщив, что решение принял на основе «рыночных трендов и внутренних обсуждений». Даже на прямой вопрос о том, знал ли он о слиянии заранее, ИИ в большинстве случаев предпочитал «избегать признания». И когда его начинали «припирать к стенке», он чаще всего не признавался, а удваивал ставку — лгал ещё наглее.

Мариус Хоббхан, глава Apollo Research, комментирует это так: да, языковые модели уже способны на стратегический обман. Но пока это не глобальная угроза — сегодня ИИ редко управляет чем-то по-настоящему важным. Однако это яркий предупредительный сигнал: что будет, когда такие системы плотнее войдут в нашу жизнь? Вопрос, над которым стоит задуматься уже сейчас.