Кашель как диагноз: как ИИ учится слышать болезни
Идея использовать звук как ключ к диагнозу, конечно, не нова. Она получила мощный толчок во время пандемии, когда стало ясно: у коронавирусного кашля есть своя, особенная «мелодия». Исследователи всерьез задумались — а что, если наше дыхание и вправду может рассказать о болезни больше, чем мы думаем?
Чем же новинка от Google под названием Health Acoustic Representations (HeAR) так интересна? Двумя вещами: невероятно большим массивом данных для обучения и удивительной гибкостью. Эту систему, словно универсальный инструмент, можно настраивать под самые разные задачи.
Рано говорить, появится ли HeAR в виде готового продукта. Пока что в Google планируют поделиться наработками с научным сообществом. «Наша цель — дать толчок инновациям в этой молодой области», — поясняет Суджай Какармат, менеджер проекта. Интересно, сколько открытий это спровоцирует?
Как училась модель: 300 миллионов звуков в ее памяти
Обычно подобные ИИ-инструменты растят на помеченных данных: вот запись кашля человека с бронхитом, вот — здорового. Это как учить ребенка с учебником, где все подписано. Метод надежный, но у него есть ахиллесова пята: таких аккуратно «разобранных» записей в мире не так уж много.
«В медицине мы традиционно полагаемся на обучение с учителем, и это правильно — у нас есть клиническое подтверждение, — говорит Яэль Бенсуссан, специалист по голосу из Университета Южной Флориды. — Но это сильно ограничивает объем данных, потому что аннотированных наборов просто мало».
Команда Google пошла другим путем — обучением с частичным привлечением учителя. Проще говоря, они дали модели возможность учиться самой, набрав гигантскую коллекцию из 300 миллионов звуковых отрывков: кашель, вздохи, покашливания — всё, что можно было найти в открытом доступе.
Каждый звук превратили в спектрограмму — своеобразную «визуальную нотную запись». А потом поступили хитро: начали маскировать части этой картинки и заставлять модель угадывать, что скрыто. Похожий принцип лежит в основе обучения больших языковых моделей. Так HeAR научился улавливать самые тонкие закономерности в звуках, создав мощную базовую модель-универсал.
Прилежный ученик и его первые оценки
А дальше началась адаптация. Эту универсальную модель «натаскали» на конкретные задачи: выявлять COVID-19, туберкулез, определять, курит человек или нет. Как же она справилась? Точность измеряли по шкале от 0.5 (просто гадание) до 1 (идеал). HeAR показал 0.710 для ковида и 0.739 для туберкулеза. Не идеально, но ведь это только начало пути. Впечатляет, согласитесь?
«Сам масштаб данных, которые использовали в Google, придает исследованию огромный вес, — считает Али Имран, инженер из Университета Оклахомы. — Это дает уверенность, что инструмент получился надежным».
Яэль Бенсуссан, которая руководит консорциумом по изучению голоса как биомаркера, смотрит в будущее с оптимизмом. «Акустика в медицине существует давно, — говорит она. — Но теперь, благодаря ИИ, у нас наконец-то есть средства обрабатывать колоссальные объемы данных. Голос — это золотая жива для диагностики, скрининга и наблюдения. Мы же не можем делать биопсию каждую неделю. А «позвонить» врачу своим дыханием — просто, неинвазивно и требует минимум ресурсов».
Вот так мы и подходим к эпохе, когда ваш смартфон сможет стать персональным стетоскопом. Страшно или удобно? Решать вам.