IMG-LOGO
image

26 февр. 2024

Просмотров: 77

Гонка вооружений в науке: как журналы ловят поддельные изображения в статьях

В мире науки разворачивается настоящая цифровая «гонка вооружений». С одной стороны, умные алгоритмы уже неплохо справляются с поиском откровенных подделок и дубликатов изображений в научных статьях. С другой — стремительное развитие генеративных нейросетей грозит свести на нет все эти усилия. Что ждет научную честность в ближайшем будущем?
Сегодняшние детекторы отлично ловят следы фотошопа, но почти бессильны против дипфейков, созданных искусственным интеллектом.

На передовой этой борьбы стоят ученые-расследователи. Они полагаются на свой наметанный глаз и специальное программное обеспечение, чтобы выявлять дубликаты и манипуляции с изображениями. Свои находки они публикуют на онлайн-форуме PubPeer, где каждый день появляются десятки новых сигналов о подозрительных картинках в научных работах.

Яркий пример — недавний скандал в Институте рака Дана-Фарбер (DFCI) в Бостоне. После сигналов от исследователя институт вынужден был инициировать отзыв или исправление целой серии статей своих сотрудников, включая высшее руководство. Расследование продолжается.

Это далеко не единичный случай. Под давлением общественности академические журналы все активнее внедряют технологические решения, в том числе ИИ-инструменты, для проверки изображений как до, так и после публикации. Журнал Nature, например, подробно изучает эту проблему и методы борьбы с ней.

Какие манипуляции встречаются чаще всего?

Спектр нарушений широк: от безобидного «приукрашивания» до откровенного мошенничества. Это может быть использование одних и тех же данных в разных графиках, копирование целых фотографий или их фрагментов, удаление неудобных деталей или склейка нескольких снимков в один. Даже, казалось бы, невинное «улучшение» картинки эксперты считают опасным — оно подрывает саму основу науки — достоверность данных.

Насколько проблема масштабна и растет ли она?

Точных цифр нет, но масштаб впечатляет. База данных сайта Retraction Watch содержит уже более 51 000 записей об отзывах, исправлениях и выражениях озабоченности, связанных именно с изображениями.

Гонка вооружений в науке: как журналы ловят поддельные изображения в статьях

Одно из самых масштабных исследований провела Элизабет Бик, специалист по научной визуализации из Сан-Франциско. Проанализировав более 20 000 статей с 1995 по 2014 год, она и ее коллеги обнаружили, что почти 4% работ содержали сомнительные изображения. Причем рост числа дубликатов начался около 2003 года — как раз с распространением цифровой фотографии, упростившей редактирование.

«Статей сегодня публикуется в разы больше, чем десять лет назад, и каждая из них содержит больше изображений, — отмечает Бик. — Добавьте сюда чудовищное давление на ученых, требующих постоянных публикаций, и вы поймете, почему проблема стала такой острой».

Что случилось в Институте Дана-Фарбер?

В январе 2024 года биолог Шолто Дэвид опубликовал в своем блоге анализ более 50 биологических статей ученых DFCI. Среди авторов были президент института и его заместитель. В блоге подробно разбирались дублирования и иные манипуляции с изображениями за почти два десятилетия.

Институт, уже проводивший внутренние проверки, сейчас добивается отзыва ряда статей и исправления других. «Важно понимать, что наличие дублирования само по себе не доказывает злого умысла, — говорит Барретт Роллинз, отвечающий в DFCI за добросовестность исследований. — Но ситуация, безусловно, вызывает тревогу».

Как журналы проверяют изображения сейчас?

Гонка вооружений в науке: как журналы ловят поддельные изображения в статьях

Чтобы снизить поток проблемных материалов, многие журналы (например, Journal of Cell Science, PLOS Biology) теперь просят авторов предоставлять не только обработанные, но и исходные, «сырые» изображения.

Широко внедряются ИИ-инструменты вроде ImageTwin, ImaCheck и Proofig. С января 2024 года все журналы семейства Science проверяют поступающие статьи с помощью Proofig. Холден Торп, главный редактор Science, признает: программа уже не раз обнаруживала такие вещи, что заставляла редакцию отказывать в публикации. Примечательно, что авторы часто благодарят за то, что их ошибки нашли до выхода статьи.

Что могут найти современные системы?

Эти инструменты быстро отлавливают дубликаты, даже если картинку повернули, растянули, обрезали или изменили её цвет. У каждого сервиса свои сильные стороны: Proofig хорошо находит следы склейки, а ImageTwin позволяет сравнивать картинку с огромной базой изображений из других статей. Некоторые издатели, например Springer Nature, разрабатывают собственные аналогичные системы.

Большинство обнаруживаемых ошибок оказываются непреднамеренными. Так, анализ Proofig показал, что из 207 случаев дублирования в статьях, поданных в журналы Американской ассоциации исследований рака, лишь 28% были сделаны намеренно (например, для иллюстрации схожих примеров), а 63% — результат невнимательности.

Так насколько же эффективны эти ИИ-системы?

Пользователи единодушны: они определенно ускоряют и упрощают поиск простых нарушений — дублей, склеек, изменений цвета. Но против сложных манипуляций или фейков, созданных генеративным ИИ, они пока практически бесполезны.

«Существующие инструменты полезны для обнаружения ошибок низкого уровня, но это лишь вершина айсберга, — предупреждает Бернд Пулверер, главный редактор EMBO Reports. — Нынешние подходы вскоре могут безнадежно устареть».

Работает ли тщательная проверка?

Гонка вооружений в науке: как журналы ловят поддельные изображения в статьях

Пока что сочетание экспертизы, технологий и повышенной бдительности дает плоды. «Мы проводим систематическую проверку уже более десяти лет и впервые видим снижение числа выявляемых нарушений», — говорит Пулверер.

Но гонка продолжается. По мере того как методы подделки становятся все изощреннее, обнаруживать их будет все сложнее. «Через несколько лет наши нынешние методы все еще будут полезны для отлова ошибок, но точно не для выявления преднамеренного мошенничества», — прогнозирует Пулверер.

В конечном счете, победить проблему манипуляций с изображениями можно только комплексно, изменив саму культуру научной работы, подход к постановке экспериментов и документированию данных, считает Элизабет Бик. А вы готовы доверять картинкам в научных статьях?