Технологии учат язык жестов и могут стать сурдопереводчиком

Друзья, представьте себе мост. С одной стороны — мир тишины и выразительных жестов, с другой — наш привычный мир слов. Две команды учёных как раз построили такие цифровые мосты, и работают они в обе стороны. Одна технология превращает жест в текст, другая — текст в жест, который показывает специальный аватар. Это же фантастика!

Знаете ли вы масштаб? ООН сообщает: жестовые языки — это родной способ общения для более чем 70 миллионов человек по всему миру. И это не один универсальный код: лингвисты описали уже больше 300 разных жестовых языков, каждый со своей грамматикой и лексикой. Целая вселенная, о которой многие из нас даже не подозревают.

И давайте сразу развеем миф: жестовыми языками пользуются не только глухие и слабослышащие. Их учат слышащие родственники, друзья, коллеги, педагоги. Выучить его взрослому — задача непростая, сравнимая с освоением любого иностранного языка. А если у слышащих родителей рождается глухой ребёнок, это становится не просто «хотелкой», а насущной необходимостью для полноценного общения в семье. Представьте эту ситуацию на минуту.

Так вот, автоматизировать перевод между этими мирами — задача титанической сложности. Сравните с переводом с английского на русский: там текст в текст, алгоритмы уже натренированы. А здесь? Чтобы перевести жест в речь, нужно сначала «прочесть» движение в пространстве (по сути, понять видео), а потом превратить эту хореографию смыслов в слова. Обратная задача — из текста собрать последовательность естественных, грамотных жестов — выглядит не менее головоломной.

Когда руки говорят, а ИИ записывает

Технологии учат язык жестов и могут стать сурдопереводчиком

И вот здесь на помощь приходят современные технологии. Исследователи из Университета Суррея представили модель Sign2GPT (работа, как водится в современной науке, уже на arXiv). Её обучили на множестве видео с жестовой речью, и теперь она умеет смотреть на жесты и генерировать соответствующий текст.

Основная сложность, с которой они столкнулись, — это «плоскостность» мира. Жестовый язык по своей природе трёхмерен: руки движутся не только вправо-влево, но и от себя и на себя, меняя смысл. А камера записывает всё это на двумерную плёнку. Получается, что системе нужно восстановить утраченное измерение, чтобы понять мысль.

Кроме того, недостаточно анализировать просто отдельные «кадры»-позы. Значение рождается в динамике, в связной последовательности, иногда даже в темпе движения. И несмотря на эти преграды, модель уже демонстрирует впечатляющие результаты в переводе жеста в текст. Движение становится словом.

Обратная магия: как слова оживают в жестах

А теперь задача посложнее. Команда из нескольких американских университетов пошла другим путём. Их модель SignLLM (её описание тоже на arXiv) училась на тех же видеозаписях, но цель у неё противоположная: получить на вход текст, а на выходе — создать видео, где аватар исполняет точный и грамотный сурдоперевод.

SignLLM. Видео с аватарами, которые воспроизводят сообщения на 8 жестовых языках

Что дальше? Учёные из обеих групп смотрят в одном направлении: объединить силы. Следующий логичный шаг — создать единую систему, которая сможет и понимать жесты, и синтезировать их, да ещё и добавить сюда распознавание и синтез голоса. Получится настоящий универсальный коммуникационный мост. Исследователи верят, что это не научная фантастика, а вполне достижимая перспектива ближайшего будущего. Представьте, как это может изменить жизни миллионов людей. Разве не ради таких прорывов и существует наука?