IMG-LOGO
image

17 мар. 2024

Просмотров: 106

Как языковые модели учатся понимать редкие диалекты и наречия

Исследователи из Университетского колледжа Лондона совершили неожиданный поворот в обучении языковых моделей. Вместо того чтобы бесконечно накапливать данные, они научили свою систему... забывать. Как ни парадоксально, это умение «стирать» старую информацию позволило ей гораз быстрее осваивать новые языки. Получается, чтобы стать полиглотом, иногда нужно кое-что отпустить?
В мире более 5000 языков. Как научить алгоритм редкому наречию вроде баскского? Ответ может крыться в искусстве забывания.

Группа учёных предложила новый подход к машинному обучению. Их модель не просто поглощает информацию — она умеет целенаправленно «забывать» лингвистические данные, чтобы освободить место для новых. Это похоже на нашу способность переключаться между языками: знание основ английского и испанского помогло алгоритму быстрее схватывать структуры других языков, не начиная с нуля.

Как работает нейросеть: если очень коротко

Современные языковые модели основаны на искусственных нейронных сетях. Представьте себе слои взаимосвязанных узлов — «нейронов». Каждый из них — это простая математическая функция. Он получает сигналы от соседей, что-то с ними делает и передаёт дальше, следующему слою.

Как языковые модели учатся понимать редкие диалекты и наречия

Изначально связи между нейронами слабы и почти случайны. Но в процессе обучения, пропуская через сеть тонны текстов, эти связи укрепляются и настраиваются. Например, для создания переводчика модель «скармливают» параллельные тексты на двух языках. Нейросеть постепенно улавливает, как слова и смыслы соотносятся друг с другом.

Но у такого подхода есть ахиллесова пята: он требует колоссальных вычислительных ресурсов. А если модель нужно адаптировать или добавить новый язык? «Допустим, ваша модель знает 100 языков, а вам нужен сто первый, который в неё не входил, — приводит пример соавтор исследования Микель Артече. — Начинать всё заново невероятно дорого». Знакомо, правда? Порой и нам, людям, проще выучить новый язык, чем переучиться с неправильного акцента.

Ловушка переобучения и неожиданное решение

Артече и его коллеги решили обойти это ограничение. Несколько лет назад они провели смелый эксперимент: обучили сеть одному языку, а затем буквально «стёрли» из неё параметры, связанные со словами (токенами), которые хранятся в специальном входном слое. Глубинные же слои, отвечающие за логику и понимание, остались нетронутыми. После этого они обучили модель второму языку.

Input layer (входной слой) принимает данные и передаёт их дальше. Hidden layers (скрытые слои) — это «мозг» сети, где происходит основная обработка информации. Их количество и сложность зависят от задачи.

Как языковые модели учатся понимать редкие диалекты и наречия

Результат удивил: модель успешно освоила новый язык, несмотря на кажущийся конфликт в данных. Исследователи сделали вывод: входной слой хранит конкретные слова, а глубокие слои — абстрактные понятия об устройстве мира и языка. Именно это общее понимание и позволяет переключаться между наречиями.

Как языковые модели учатся понимать редкие диалекты и наречия

«Мы говорим на разных языках, но живём в одном мире. Яблоко — это что-то сладкое и сочное, а не просто набор букв, — поясняет ведущий автор работы Ихонг Чен. — Модель учится схватывать именно эти глубинные концепции».

Искусство забывать: главный секрет гибкого ума

Первый эксперимент доказал, что забывать полезно. Но процесс всё ещё был ресурсозатратным. Тогда учёные пошли дальше: они научили модель забывать правильно. Вместо разовой чистки входного слоя после обучения они стали периодически сбрасывать его в процессе первоначальной тренировки. Это похоже на регулярную генеральную уборку во время ремонта, а не после него.

Как языковые модели учатся понимать редкие диалекты и наречия

«Вся модель учится забывать, — говорит Артече. — Поэтому, когда нужно добавить новый язык, она уже готова: она знает, как освоиться с пустым входным слоем и быстро заполнить его новыми данными».

Эффект проверили на известной модели RoBERTa. После стандартного обучения и обучения с «забыванием» точность первой была чуть выше (86.1 против 85.1). Но всё изменилось, когда модели дали переучиться на новом языке с крошечным набором данных. Точность обычной модели рухнула до 53.3, а «забывчивой» — удержалась на 62.7. А когда время на переобучение резко сократили, «забывчивая» модель справилась (57.8), в то время как обычная показала результат немногим лучше случайного угадывания (37.2).

Что это говорит о понимании языка?

Регулярное забывание, судя по всему, заставляет модель искать более глубокие, абстрактные закономерности, а не просто запоминать поверхностные связи между словами. «Это делает сеть более гибкой и адаптивной», — отмечают исследователи.

Похожие процессы идут в нашем мозге. Мы не запоминаем каждый миг нашей жизни в деталях, а сохраняем суть, выжимку опыта. Адаптивное забывание — это не баг, а фича, позволяющая нам обобщать и применять знания в новых ситуациях. Перенос этого принципа в машинное обучение выглядит логичным шагом.

Этот подход открывает путь к поддержке редких языков, для которых нет миллиардов текстов в интернете. «Большие коммерческие модели часто проваливаются на моём родном баскском, — приводит пример Микель Артече. — Адаптация существующих моделей через механизм забывания — это наиболее реалистичный путь к тому, чтобы технологии заговорили на всех языках планеты, а не только на самых распространённых».