IMG-LOGO
image

23 янв. 2024

Просмотров: 98

Кривые переводы ИИ: как словесный мусор заполонил сеть

Что, если я скажу вам, что полмира в интернете говорит корявым эсперанто от искусственного интеллекта? Исследователи из Amazon Web Services и Калифорнийского университета в Санта-Барбаре как раз это и выяснили. Они проглотили гору данных — больше 6 миллиардов предложений — и отрыгнули неприятную правду: свыше половины случайных фраз в сети — это переводы. И часто ужасные. Особенно страдают языки, чьих носителей в сети мало. Получается, цифровая глобализация оставляет целые культуры за бортом.
Помните мечты конца 90-х? Билл Гейтс тогда провозгласил интернет «главной площадью нашей глобальной деревни». Красиво, правда? Жаль, что на этой площади одни голоса звучат громко и четко, а другие — как искаженное эхо через десять переводчиков подряд.

Не поймите меня неправильно: интернет — это чудо. Он связал континенты, ускорил науку и подарил нам котиков в HD. Но у каждой медали есть обратная сторона. Новое исследование — как холодный душ после этой эйфории. Прогресс притащил за собой старые проблемы на новом уровне.

Итак, команда ученых не просто собрала гигантский корпус текстов. Они заглянули под капот и ужаснулись. Оказалось, что больше половины случайных предложений из интернета — это не оригинал, а перевод. Причем перевод кривой, с грубыми ошибками. А знаете, что самое пикантное? Многие тексты прошли через целую цепочку языков — исследователи насчитали порой до восьми-девяти шагов! Представьте себе игру в «испорченный телефон», где каждый участник — это алгоритм. С каждым новым звеном смысл расползается, как старый свитер.

Неудивительно, что свою работу ученые назвали без академического пафоса: «Шокирующее количество онлайновых машинных переводов». Прямо и по делу.

«Низкое качество этих переводов ясно показывает: здесь поработала машина, без человеческого контроля, — пишут авторы. — И это, друзья, очень тревожный звонок. Потому что на этих самых данных — кривых, искаженных — мы сейчас учим наши самые продвинутые языковые модели. Мы кормим их фастфудом и ждем гениальных речей».

Порочный круг: когда моделям нечего читать, кроме машинного бреда

Кривые переводы ИИ: как словесный мусор заполонил сеть

И вот ключевой момент: проблема не только в переводах. Часть текстов изначально создана нейросетями. Цифровой змей кусает себя за хвост.

Ученые обращают внимание на главную несправедливость: языки, которые и так мало представлены в сети (многие африканские, например), попадают в ловушку. Для них просто нет enough качественных, человеческих текстов. Зато есть тонны машинного перевода с ошибками. На этом и учатся местные языковые модели. Получается порочный круг: ИИ переводит плохо → на плохих переводах учится новый ИИ → он переводит еще хуже. И так по нарастающей, с каждым днем и каждым часом.

Мехак Даливал, соавтор исследования, признается: толчком стали жалобы коллег — носителей редких языков. Они-то сразу чувствовали подделку. «Большая часть контента на их родных языках в сети выглядела как машинная генерация, — говорит Даливал. — Мы должны предупредить всех: помните, что текст, который вы читаете, мог вообще не касаться человеческих рук. Его, возможно, наплевал алгоритм».

Кривые переводы ИИ: как словесный мусор заполонил сеть

Ученые подчеркивают масштаб бедствия: «Машинные переводы не просто встречаются — они доминируют. А для некоторых языков они составляют львиную долю ВСЕГО онлайн-контента». Качество, разумеется, страдает. Но что делать моделям, если другой пищи нет? Они жуют этот цифровой фастфуд, толстеют от галлюцинаций и выдают на-гора ещё более странные тексты.

Лучше всего суть проблемы показывает их пример. Возьмем безобидную английскую фразу: «You can take over-the-counter ibuprofen as needed for pain». Переводчик Google выдаст вам вполне адекватный русский вариант: «При необходимости от боли вы можете принимать ибупрофен, отпускаемый без рецепта». Русскому повезло — он в сети хорошо представлен. А теперь посмотрим на перевод той же фразы на армянский. Готовы? Алгоритм выдал: «От боли при необходимости можно брать противотанковую ракету». Да, вы не ослышались. «Anti-tank missile». Я до сих пор гадаю, как «ibuprofen» (ибупрофен) превратился в «противотанковую ракету». И именно на таких перлах теперь учатся большие языковые модели. Смешно? Как-то очень грустно.