Как отличить научную статью учёного от текста, написанного чат-ботом?
Представьте: вы редактор солидного научного журнала. К вам приходит статья с безупречными формулами и логичными выводами. Но что-то в ней неуловимо «не так». Теперь есть способ это проверить. Команда химиков обучила модель, которая отличает текст человека от текста, созданного ChatGPT, именно в области химии.
«Все мечтают об универсальном детекторе — волшебной палочке для любого текста», — говорит соавтор работы Хизер Десайр. — Но мы пошли другим путем: заточили наш инструмент под конкретный тип научных работ. Наша цель — не широта, а максимальная точность». И, судя по всему, этот подход оправдал себя.
Элементы стиля: как вычислить машину
Десайр и ее коллеги впервые опробовали свой детектор еще в июне, «просеивая» им статьи из журнала Science. Алгоритм, основанный на машинном обучении, анализирует 20 стилистических особенностей. Длина предложений, частота употребления определенных слов и даже знаки препинания — всё это выдает авторский почерк (или его отсутствие). Оказалось, что для высокой точности не нужны сотни параметров. Достаточно небольшого, но тщательно подобранного набора признаков.
Для последнего эксперимента модель обучали на вводных разделах (introduction) статей из десяти химических журналов Американского химического общества. Почему именно введение? Это та часть, которую нейросети, имея доступ к литературе, сочиняют особенно легко. Ученые взяли 100 «живых» введений, а затем поручили ChatGPT-3.5 написать 200 таких же — половину на основе только заголовков статей, половину на основе готовых аннотаций.
Результаты заставляют задуматься. На текстах, сгенерированных ChatGPT по заголовкам, детектор показал стопроцентную точность. На тех, что были написаны по аннотациям, — 98%. Что самое интересное, инструмент столь же успешно справился и с текстами от более продвинутой версии — ChatGPT-4. На этом фоне другие популярные детекторы, вроде ZeroGPT или родного инструмента от создателей ChatGPT, показали точность от 10% до 65%. Разница, как говорится, налицо.
Новый «ловец» оказался не только точным, но и устойчивым. Он распознавал нейросетевой текст даже из журналов, на которых не обучался, и не поддавался на уловки, специально предназначенные для обмана детекторов. Правда, есть и оборотная сторона медали: система узко специализирована. Когда ей подали статьи из университетских газет, она не смогла опознать их как человеческие. Что ж, даже самый гениальный сыщик не может быть экспертом во всём.
Главная проблема: ученым не нравится писать
«То, что сделали авторы, — это нечто захватывающее», — считает Дебора Вебер-Вульф, специалист по академическому плагиату. Многие существующие детекторы ищут шаблонные паттерны, свойственные ИИ. А здесь впервые применили стилометрию — анализ стилистических особенностей — для выявления авторства нейросети. Это свежий и очень перспективный взгляд.
Но Вебер-Вульф указывает на более глубокую проблему. Многие исследователи находятся под жутким прессингом: нужно публиковаться быстро и много. И для них написание статей — не творческий процесс, а рутинная обязаловка, которую они с радостью переложат на плечи алгоритма. Детектор, каким бы точным он ни был, эту системную проблему не решит. Он лишь выявит симптомы. А лечить предстоит саму культуру научной коммуникации. Стоит ли тогда удивляться, что ученые ищут легкие пути?