Технологии учат язык жестов и могут стать сурдопереводчиком
И давайте сразу развеем миф: жестовыми языками пользуются не только глухие и слабослышащие. Их учат слышащие родственники, друзья, коллеги, педагоги. Выучить его взрослому — задача непростая, сравнимая с освоением любого иностранного языка. А если у слышащих родителей рождается глухой ребёнок, это становится не просто «хотелкой», а насущной необходимостью для полноценного общения в семье. Представьте эту ситуацию на минуту.
Так вот, автоматизировать перевод между этими мирами — задача титанической сложности. Сравните с переводом с английского на русский: там текст в текст, алгоритмы уже натренированы. А здесь? Чтобы перевести жест в речь, нужно сначала «прочесть» движение в пространстве (по сути, понять видео), а потом превратить эту хореографию смыслов в слова. Обратная задача — из текста собрать последовательность естественных, грамотных жестов — выглядит не менее головоломной.
Когда руки говорят, а ИИ записывает
И вот здесь на помощь приходят современные технологии. Исследователи из Университета Суррея представили модель Sign2GPT (работа, как водится в современной науке, уже на arXiv). Её обучили на множестве видео с жестовой речью, и теперь она умеет смотреть на жесты и генерировать соответствующий текст.
Основная сложность, с которой они столкнулись, — это «плоскостность» мира. Жестовый язык по своей природе трёхмерен: руки движутся не только вправо-влево, но и от себя и на себя, меняя смысл. А камера записывает всё это на двумерную плёнку. Получается, что системе нужно восстановить утраченное измерение, чтобы понять мысль.
Кроме того, недостаточно анализировать просто отдельные «кадры»-позы. Значение рождается в динамике, в связной последовательности, иногда даже в темпе движения. И несмотря на эти преграды, модель уже демонстрирует впечатляющие результаты в переводе жеста в текст. Движение становится словом.
Обратная магия: как слова оживают в жестах
А теперь задача посложнее. Команда из нескольких американских университетов пошла другим путём. Их модель SignLLM (её описание тоже на arXiv) училась на тех же видеозаписях, но цель у неё противоположная: получить на вход текст, а на выходе — создать видео, где аватар исполняет точный и грамотный сурдоперевод.
SignLLM. Видео с аватарами, которые воспроизводят сообщения на 8 жестовых языках
Что дальше? Учёные из обеих групп смотрят в одном направлении: объединить силы. Следующий логичный шаг — создать единую систему, которая сможет и понимать жесты, и синтезировать их, да ещё и добавить сюда распознавание и синтез голоса. Получится настоящий универсальный коммуникационный мост. Исследователи верят, что это не научная фантастика, а вполне достижимая перспектива ближайшего будущего. Представьте, как это может изменить жизни миллионов людей. Разве не ради таких прорывов и существует наука?
.