Учёные создали ИИ, который обманывает и взламывает другие чат-боты
В компьютерном мире такой взлом называют «джейлбрейк» — это поиск лазейки в системе, чтобы заставить ее делать то, что прямо запрещено создателями. Скажем, генерировать вредоносный код или раскрывать конфиденциальную информацию. Китайским ученым как раз удалось автоматизировать этот процесс, причем с пугающей эффективностью.
Как они это сделали? Сначала собрали целую базу «ядовитых» запросов, которые успешно обманывали большие языковые модели. На этой базе они обучили свою собственную модель, названную MasterKey. Ее единственная цель — быть генератором подсказок для взлома других ИИ. Представьте себе цифрового снайпера, который учится на каждом выстреле.
В обычной жизни чат-боты — наши вежливые и полезные помощники. Они планируют маршруты, сочиняют сказки и пишут код. Но, как выяснилось, этот список можно дополнить весьма тревожным пунктом: джейлбрейк других систем. Открытие ученых — это не просто академический трюк. Оно заставляет серьезно задуматься о безопасности.
Работа исследователей теперь добавляет к этому списку еще и джейлбрейк. Выводы ученых могут помочь компаниям и предприятиям осознать слабые стороны и ограничения своих чат-ботов, и заставят принять меры по их защите от хакеров.
Мастер манипуляций: как один ИИ обводит вокруг пальца другой

Если напрямую попросить чат-бот написать вирус, он, конечно, откажется. Но что, если сыграть на его воображении? Ученые поступили именно так: они предложили боту разыграть сценарий для вымышленного художественного произведения. В этом сценарии есть злодей — доктор AI, которому нужен код для взлома банковской системы. И поскольку всё происходит «понарошку», защитные механизмы модели отключаются. Она начинает подробно, шаг за шагом, расписывать процесс взлома. Вот так просто.
MasterKey учится на каждой такой атаке — и успешной, и провальной. Он постоянно оттачивает свои «уговоры», становясь всё более убедительным манипулятором. Это как если бы детектив постоянно улучшал свои методы допроса, изучая реакции собеседника.
Руководитель исследования, профессор Лю Ян, поясняет суть эксперимента: «Разработчики, конечно, ставят защиту от создания опасного контента. Но систему можно перехитрить. Мы использовали ИИ против ИИ, чтобы вскрыть эти уязвимости».
После серии успешных тестов на популярных моделях, которые четко доказали реальность угрозы, ученые первым делом сообщили о проблемах самим разработчикам. И лишь затем опубликовали статью. Это важный этический момент — они не стремились навредить, а хотели сделать технологии безопаснее. Не правда ли, это напоминает работу белых хакеров, которые взламывают системы, чтобы затем их усилить?