Как заставить нейросеть забыть: новая технология удаления опасных данных
В ответ на этот вопрос рождается новая область исследований — «машинное разобучение» (machine unlearning). Её цель — научить модели ИИ безопасно забывать. Звучит как сценарий для фантастического фильма, не правда ли? Но это уже реальность.
Проблема в том, что традиционное переобучение модели с нуля — процесс невероятно затратный. Современные большие языковые модели требуют недель или даже месяцев вычислений и гигантского расхода энергии — десятки гигаватт-часов, чего хватило бы на питание тысяч домов в течение года. Каждый раз переучивать модель ради удаления нескольких вредных данных — просто непозволительная роскошь.
Машинное разобучение предлагает элегантное решение: быстро, дёшево и с минимальными затратами ресурсов удалять из глубины нейросети проблемные фрагменты информации, сохраняя при этом общую эффективность модели. В авангарде этих исследований — специалисты по компьютерным наукам из Уорикского университета, работающие совместно с Google DeepMind.
Искусство забывать

«Глубокие нейросети — невероятно сложные структуры, содержащие триллионы параметров. Мы до конца не понимаем, как именно они приходят к тем или иным решениям, — говорит соавтор работы, профессор Питер Триантафиллоу из Уорикского университета. — Учитывая эту сложность и огромные объёмы данных для обучения, такие сети потенциально опасны для общества».
«Чем именно они могут быть опасны? Например, тем, что усваивают предубеждения из обучающих данных. Это могут быть гендерные стереотипы — вроде того, что все врачи мужчины, а медсёстры — женщины. Или расовые предрассудки. Модель может принять реальные данные за фальшивки или, что хуже, запомнить конфиденциальную информацию о людях или компаниях, что равносильно утечке», — поясняет Триантафиллоу.
В своей новой работе учёные предложили конкретный алгоритм разобучения, который выборочно стирает из нейросети проблемные данные, не снижая её общую производительность. Это пока единственное исследование, где чётко разграничены и измерены успехи в забывании трёх разных типов опасных данных: предубеждений, ошибочных пометок и конфиденциальной информации.
Работа в этом направлении критически важна. Ведь если мы хотим, чтобы ИИ стал безопасным и этичным инструментом, нам нужно не только учить его, но и вовремя давать возможность забывать.