BioRxiv доверил нейросети писать аннотации к статьям: что пошло не так
Журнал Nature описывает случай, который стал тревожным звоночком. Эрик ван Нимвеген и Паскаль Гробекер, биологи из Базельского университета, выложили на bioRxiv препринт о новом методе анализа генов. Учёный сам написал отличный синопсис и поделился им в соцсетях.
Каково же было его удивление, когда прямо под статьёй на сайте появилось автоматическое резюме, сгенерированное нейросетью. Первое же предложение оказалось бессмысленной тарабарщиной, а дальше — только хуже. «Лучше бы вообще не было никакого резюме, чем этот мусор», — возмутился ван Нимвеген в своём посте.
Когда за учёного думает алгоритм

Это часть пилотного проекта, запущенного bioRxiv в ноябре. Идея благородная: использовать большие языковые модели, чтобы создавать краткие описания свежих исследований. Сервис выдаёт три версии — для широкой публики, для учёных разных специальностей и для узких экспертов в данной области.
«Мы хотели сделать статьи более доступными. Ведь научные тексты порой невероятно сложны для восприятия», — поясняет Ричард Север, сооснователь bioRxiv.
Эта инициатива — часть общей тенденции. Сервер препринтов arXiv в области физики уже использует ИИ для создания аудио-аннотаций. Издатели и научные фонды тестируют чат-ботов, которые «обсуждают» с пользователем содержание статьи. Звучит футуристично, но что на выходе?
Резюме на bioRxiv генерируются на основе полного текста статьи, а не только аннотации авторов. Разработчики надеются, что это поможет исследователям быстро оценивать, стоит ли углубляться в чтение. Пока рядом с каждым таким синопсисом красуется предупреждение: «Сгенерировано ИИ, авторами не проверено» — и это ключевая оговорка.
Перед запуском команда bioRxiv проанализировала несколько десятков сгенерированных аннотаций. Некоторые были даже лучше авторских, признаёт Север. Но другие содержали откровенный вымысел и ошибки. «Мы знаем, что они могут ошибаться», — констатирует он. Забавно, но наиболее вменямыми чаще оказывались популярные резюме для широкой публики. А вот версии «для специалистов» страдали больше всего. Немного иронии, не находите?
Ван Нимвеген подтверждает это: общий синопсис его работы был вполне адекватным, а вот «экспертная» версия провалилась полностью.
Если эксперимент признают удачным, bioRxiv планирует вовлекать авторов в проверку и редактирование таких резюме. Но пока этого нет.
И что особенно важно: пилотный проект не распространяется на медицинский сервер medRxiv. И это мудрое решение. Ошибка в аннотации к исследованию по клеточной биологии — это одно. А вот неточность в резюме клинического исследования, которую могут прочесть пациенты, ищущие спасения, — это уже совсем другой уровень ответственности. Рисковать тут нельзя.
Пока учёные спорят о качестве резюме, bioRxiv уже готовит следующую функцию на базе ИИ — чат-бота, который сможет «беседовать» с пользователем о содержании статей. Остаётся главный вопрос: станет ли это удобным инструментом или ещё одним источником путаницы? Время покажет.