BioRxiv доверил нейросети писать аннотации к статьям: что пошло не так

Сервер научных препринтов bioRxiv начал эксперимент: теперь нейросеть пишет краткие резюме для новых статей. Причём сразу на трёх уровнях сложности — от популярного до сугубо профессионального. Но учёные, увидев результаты, лишь недоумённо пожали плечами: пока что эти «помощники» допускают слишком много ляпов.

Представьте: сложнейшая научная статья, которую даже коллегам из смежной области разобрать непросто. Автоматическое краткое изложение могло бы стать спасением. Если бы оно было точным.

Журнал Nature описывает случай, который стал тревожным звоночком. Эрик ван Нимвеген и Паскаль Гробекер, биологи из Базельского университета, выложили на bioRxiv препринт о новом методе анализа генов. Учёный сам написал отличный синопсис и поделился им в соцсетях.

Каково же было его удивление, когда прямо под статьёй на сайте появилось автоматическое резюме, сгенерированное нейросетью. Первое же предложение оказалось бессмысленной тарабарщиной, а дальше — только хуже. «Лучше бы вообще не было никакого резюме, чем этот мусор», — возмутился ван Нимвеген в своём посте.

Когда за учёного думает алгоритм

BioRxiv доверил нейросети писать аннотации к статьям: что пошло не так

Это часть пилотного проекта, запущенного bioRxiv в ноябре. Идея благородная: использовать большие языковые модели, чтобы создавать краткие описания свежих исследований. Сервис выдаёт три версии — для широкой публики, для учёных разных специальностей и для узких экспертов в данной области.

«Мы хотели сделать статьи более доступными. Ведь научные тексты порой невероятно сложны для восприятия», — поясняет Ричард Север, сооснователь bioRxiv.

Эта инициатива — часть общей тенденции. Сервер препринтов arXiv в области физики уже использует ИИ для создания аудио-аннотаций. Издатели и научные фонды тестируют чат-ботов, которые «обсуждают» с пользователем содержание статьи. Звучит футуристично, но что на выходе?

Резюме на bioRxiv генерируются на основе полного текста статьи, а не только аннотации авторов. Разработчики надеются, что это поможет исследователям быстро оценивать, стоит ли углубляться в чтение. Пока рядом с каждым таким синопсисом красуется предупреждение: «Сгенерировано ИИ, авторами не проверено» — и это ключевая оговорка.

Перед запуском команда bioRxiv проанализировала несколько десятков сгенерированных аннотаций. Некоторые были даже лучше авторских, признаёт Север. Но другие содержали откровенный вымысел и ошибки. «Мы знаем, что они могут ошибаться», — констатирует он. Забавно, но наиболее вменямыми чаще оказывались популярные резюме для широкой публики. А вот версии «для специалистов» страдали больше всего. Немного иронии, не находите?

Ван Нимвеген подтверждает это: общий синопсис его работы был вполне адекватным, а вот «экспертная» версия провалилась полностью.

Если эксперимент признают удачным, bioRxiv планирует вовлекать авторов в проверку и редактирование таких резюме. Но пока этого нет.

И что особенно важно: пилотный проект не распространяется на медицинский сервер medRxiv. И это мудрое решение. Ошибка в аннотации к исследованию по клеточной биологии — это одно. А вот неточность в резюме клинического исследования, которую могут прочесть пациенты, ищущие спасения, — это уже совсем другой уровень ответственности. Рисковать тут нельзя.

Пока учёные спорят о качестве резюме, bioRxiv уже готовит следующую функцию на базе ИИ — чат-бота, который сможет «беседовать» с пользователем о содержании статей. Остаётся главный вопрос: станет ли это удобным инструментом или ещё одним источником путаницы? Время покажет.