На каком языке «думают» ИИ-модели? Секрет их англоязычного внутреннего мира

Ученые из EPFL обнаружили любопытный факт: мощные языковые системы, которых мы учим на наших родных языках, внутри себя, кажется, предпочитают английский. Это как если бы ваш друг-полиглот, отвечая вам по-французски, в уме всё равно считал на английском. И эта особенность может иметь далеко идущие последствия, усиливая культурные предубеждения в мире, где такие системы становятся все влиятельнее.

Мы восхищаемся, как ChatGPT или Gemini бегло говорят с нами по-русски, по-испански или по-китайски. Но что, если за этой беглостью скрывается цифровой англоцентризм? Оказывается, у этих систем, как и у людей, может быть «родной» язык мышления.

Хотя мы можем общаться с этими системами на любом языке, их «детство» прошло в основном на англоязычных текстах. Многие подозревали, что внутренняя кухня работы построена на английском, а перевод на ваш язык происходит в самый последний момент. Долгое время это была лишь догадка, пока не появились доказательства.

Тестирование Llama

Исследователи из Федеральной политехнической школы Лозанны взяли для эксперимента модель с открытым кодом — Llama-2. Их цель была понять, на каком языке «думает» система на разных этапах ответа.

«Эти системы устроены так, что предсказывают следующее слово. Они превращают каждое слово в точку в огромном цифровом пространстве. Слово «дом» всегда будет находиться в одной и той же координате», — объясняет профессор Роберт Уэст, руководивший работой.

«Модель состоит из множества слоев, как этажей в небоскребе. Каждый слой преобразует представление слова, постепенно приближаясь к конечному ответу. Чем больше слоев — тем мощнее система и точнее предсказание».

Ученые пошли на хитрость: они заставляли модель выдавать промежуточный ответ после каждого такого «этажа», не давая дойти до конца цепочки. Они давали ей задачи вроде перевода с французского на китайский и смотрели, что же происходит внутри.

«Мы учили систему переводу, показывая пары слов: французское, затем китайское. В идеале она должна сразу выдавать китайский вариант. Но что мы увидели? На большинстве промежуточных этапов система с наибольшей вероятностью предлагала… английский перевод французского слова! Хотя английского в задаче не было вовсе. И только на последних четырех-пяти слоях она «вспоминала», что нужен именно китайский», — рассказывает Уэст. Поразительно, не правда ли?

От слов к понятиям

На каком языке «думают» ИИ-модели? Секрет их англоязычного внутреннего мира

Самое простое объяснение — система сначала всё переводит на английский, а потом на нужный язык. Но данные указали на более интересную теорию.

На ранних этапах, когда система еще не готова угадать слово, она работает с входными данными. Затем, когда в ее «мыслях» начинает доминировать английский, происходит что-то вроде перехода в абстрактное пространство понятий. Это уже не слова конкретного языка, а универсальные представления об идеях и их связях.

«Мы полагаем, что это пространство понятий смещено в сторону английского. И это логично — ведь около 90% данных, на которых училась система, были на английском. Она отображает слова вашего языка вглубь, в смысловое пространство, где связи между понятиями устроены так, как это обычно происходит между английскими словами, а не словами вашего родного языка», — поясняет Уэст.

Монокультура и предвзятость

Так ли это важно? Ученые считают, что да, и очень. Есть масса исследований о том, как структура языка формирует наше мышление и восприятие реальности. Слова, которых нет в английском, могут описывать уникальные концепции. Что, если они так и останутся невыраженными в цифровом мире?

Уэст предлагает заняться «психологией» языковых систем: общаться с ними, как с людьми, на разных языках, проводить поведенческие тесты и оценивать степень предвзятости.

«Наша работа задела важную тему — растущие опасения по поводу цифровой монокультуры. Мы можем потерять огромный пласт культурного разнообразия просто потому, что некоторые вещи трудно выразить на английском. А это, согласитесь, пугающая перспектива», — заключает исследователь.