Как ИИ учит язык, как ребёнок: только через видео и звук

Представьте, что вы учитесь говорить не по учебникам, а просто наблюдая за миром. Именно так учатся дети. И именно так ученые научили искусственный интеллект. Созданная ими модель постигает язык, как младенец: только через видео со звуком, без единой подсказки. Что, если таким же ключом можно открыть и языки животных?

Если звук и картинка рассказывают об одном и том же событии, они сами переводят друг друга. Услышали слово «мяч» и увидели, как он катится — и вот связь уже установлена. Так можно понять язык, не зная ни единого правила заранее.

Вспомните, как ребенок произносит первые слова. Никакой грамматики, лишь звуки, подражающие реальности. Но постепенно, снова и снова попадая в одни и те же ситуации и слыша одни и те же слова, мозг строит мост между зрением и слухом. Событие обретает имя, а слово — смысл. Просто, гениально и до боли знакомо.

Эта простая идея легла в основу масштабного проекта исследователей из MIT, Оксфорда, Google и Microsoft. Модель, названная DenseAV, была описана в научном препринте. И знаете, с чего все началось? С вовсе не детского лепета, а с одного очень выразительного... пингвина.

Откуда берется матерное слово в языке пингвинов

Ведущий автор работы Марк Гамильтон признается: «Ирония судьбы — нас вдохновил документальный фильм «Марш пингвинов». Там есть момент, где пингвин поскальзывается на льду и издает резкий, отрывистый крик. Когда видишь это, практически не остается сомнений: этот звук означает то самое английское слово из четырех букв». Звук и действие сливаются в абсолютно понятное сообщение, правда ведь?

Марш пингвинов. Трайлер

Для обучения модели ученые взяли AudioSet — огромную библиотеку из 2 миллионов неразмеченных видео с YouTube. Никаких подписей, никаких инструкций. Только «сырой» поток изображения и звука. Модель училась методом контрастного обучения, то есть самостоятельно находила связи между тем, что видит и что слышит. И она справилась. Начиная с чистого листа, как младенец, она научилась уверенно сопоставлять картинку со звуковым описанием и наоборот.

Это значит, что система может «озвучить» то, что видит на видео, и «увидеть» то, что слышит в аудио. Мост между мирами построен.

И неслучайно началось все с пингвина. Ученые смотрят далеко вперед: их цель — интерпретация языков животных. Представьте, что обучив модель на песнях горбатых китов и сопоставив их с подводной жизнью, мы наконец-то сможем понять, о чем они «говорят», проплывая в океанской темноте. Мы стоим на пороге возможности услышать мир так, как слышат его другие виды.