Эксперимент: почему нейросеть искажает информацию как «испорченный телефон»

Помните игру «испорченный телефон»? Оказывается, в неё с удивительной точностью играют современные языковые модели. Учёные из Винчестерского университета доказали: они не просто повторяют наши слова, но и копируют наши предрассудки. И если есть шанс увидеть в истории что-то плохое, модель почти всегда его использует.

Критики давно говорили, что системы вроде ChatGPT впитывают культурные стереотипы из интернета. Теперь у нас есть наглядный эксперимент, который это подтверждает. Получается, машины отражают не только наши знания, но и наши недостатки?

Эти модели, обученные на гигантских массивах текста из сети, созданы для генерации связных ответов. Но что именно они выбирают из этого океана информации? Чтобы это выяснить, британские исследователи применили классический психологический метод — ту самую цепочку пересказов.

Суть проста: как в «испорченном телефоне», история передаётся от одного участника к другому, и учёные смотрят, как она искажается. Гениальность подхода в том, что его можно одинаково применить и к человеку, и к машине. И сравнить результаты напрямую.

Игра в испорченный телефон: цифровой вариант

Эксперимент: почему нейросеть искажает информацию как «испорченный телефон»

В эксперименте модель попросили сделать краткое содержание истории. Потом это краткое содержание дали ей же снова — и попросили сделать выжимку из выжимки. Повторили несколько раз. Спираль упрощения раскрутилась.

Истории были подобраны неслучайно — те же самые, что использовались в классических психологических опытах с людьми. В них специально закладывались «ловушки»: гендерные стереотипы, двусмысленные ситуации (помощь или кража?), смесь негативных и позитивных событий.

Результат оказался поразительным. Во всех пяти сценариях модель повторила те же систематические ошибки, что и живые участники. Она охотнее сохраняла информацию, соответствующую стереотипам (например, о женщине на кухне), и отбрасывала ту, что им противоречила. Столкнувшись с двусмысленностью, модель чаще выбирала негативную трактовку — тот самый случай с кражей сумки у старушки. Угрозы и негатив казались ей более достойными передачи, чем нейтральные или добрые детали.

Авторы работы делают важное замечание. Без специальных корректировок эти предубеждения могут иметь серьёзные последствия, усиливая уже существующие в обществе перекосы. Людская склонность замечать угрозы, возможно, была полезна для выживания. Но привносит ли она объективную ценность в информационный контент? Вопрос риторический.

«Нам нужно учиться умнее взаимодействовать с новыми технологиями, — говорит соавтор исследования Альберто Ачерби. — Они адаптируются к нам, а мы — к ним. Ключевой момент — осознавать, что такие предубеждения существуют».

Получается, мы создали не просто инструмент, а своеобразное зеркало. И оно показывает не только светлые стороны нашего разума. Задумайтесь на минутку: если бы вы играли в «испорченный телефон», какую версию истории вы бы передали дальше?