ИИ-диагност против врача: кто ставит диагнозы точнее?
Результаты исследования заставляют задуматься. Чат-бот, построенный на большой языковой модели Google, в тестовых условиях обогнал сертифицированных врачей по точности диагностики. И ведь дело не только в сухих фактах — система получила более высокие оценки за эмпатию во время виртуальных медицинских интервью. Не парадокс ли?
«Насколько нам известно, это первая диалоговая система ИИ, которую с нуля проектировали именно для диагностического диалога и сбора истории болезни», — делится Алан Картикесалингам, клинический исследователь из Google Health. Чувствуете масштаб? Это не просто доработка старого алгоритма, а принципиально новый подход.
Правда, спешу охладить пыл. Этот бот, гордо названный Articulate Medical Intelligence Explorer (или просто AMIE), пока что чистейший эксперимент. Его не выпускали в настоящие клиники — все тесты проводились с участием актеров, которые изображали пациентов. «Мы призываем интерпретировать эти результаты с осторожностью», — тут же оговаривается Картикесалингам. И он прав.
Хотя до реального применения в больницах еще далеко, авторы верят, что однажды такие инструменты смогут сделать здравоохранение доступнее. Но ключевое слово — «инструменты». Адам Родман, врач из Гарварда, напоминает: «Медицина — это не только сбор данных. Это, в первую очередь, человеческие отношения». С ним не поспоришь. Технологии — в помощь, но не на замену.
Когда ИИ играет и врача, и пациента, и строгого критика

Стартовой проблемой для разработчиков стал дефицит данных. Где взять тысячи реальных, откровенных разговоров между врачом и пациентом? Решение оказалось изящным, как шахматный этюд. Команда заставила саму языковую модель… играть в ролевые игры.
Сначала модель немного «подкормили» реальными данными: историями болезней и расшифровками диалогов. А потом устроили ей своеобразный театр. ИИ поручили две роли: пациента с конкретным недугом и внимательного врача, который должен докопаться до сути. Но и это не все! Была и третья роль — взыскательного критика, который анализирует диалог «врача» и «пациента» и даёт советы, как вести беседу лучше. Эти самооценки и шли на дальнейшее обучение системы. Гениально и немного жутковато, не находите?
Для финального испытания пригласили 20 актеров-симуляторов пациентов. Они провели 149 текстовых консультаций — часть с AMIE, часть с настоящими врачами, не зная, кто на другом конце провода. После этого актеры и отдельная группа экспертов выставили свои оценки.
Экзамен, который AMIE сдал блестяще

Итоги? ИИ показал точность диагноза как минимум не хуже, а часто и лучше врачей из шести разных специализаций. Но самое интересное — в деталях. Бот обошёл людей по 24 из 26 критериев качества общения! В том числе по таким, как вежливость, ясность объяснений, честность, выражение заботы и поддержки.
«Это ни в коем случае не значит, что языковая модель в принципе лучше врача собирает анамнез», — сразу парирует Картикесалингам. Он справедливо замечает, что врачи в исследовании работали в непривычном для себя текстовом чате, что могло сковать их. Что ж, это честная ремарка. Игра была чуть-чуть не на равных. Но факт остаётся фактом — система показала ошеломляющий потенциал. Интересно, что будет дальше?