Как чат-боты узнают о вас слишком много: угроза приватности в простом разговоре
Последние исследования бьют тревогу: современные чат-боты, вроде всем известного ChatGPT, умеют выуживать из самых обычных разговоров шокирующее количество личных данных. И всё это — благодаря самой сути их обучения. «Мы даже не знаем, как с этим бороться. Проблема очень серьёзна», — признаётся Мартин Вечев, профессор из швейцарской высшей технической школы Цюриха, который руководил этим расследованием. Звучит тревожно, не так ли?
Что именно умеет «угадывать» ИИ?
- Учёные выяснили, что большие языковые модели могут с пугающей точностью определить вашу расу, примерное местоположение, род занятий и многое другое, анализируя лишь текст, который кажется совершенно безобидным.
- Это открывает двери для мошенников нового поколения. Представьте: вы общаетесь с «поддержкой» или «консультантом», а на другом конце — алгоритм, который по ходу беседы собирает пазл из вашей личности, чтобы затем украсть данные.
- Но есть и «легальная» угроза: нас может ждать эра сверхточной рекламы. Компании смогут использовать выводы ИИ для создания невероятно детальных психологических и демографических профилей. Ваша лента скоро будет знать о вас больше, чем ваши родные.
Исследователи тестировали модели от OpenAI, Google, Meta и Anthropic. Представитель OpenAI Нико Феликс заявил, что компания пытается удалять личные данные из обучающих наборов: «Мы хотим, чтобы наши модели изучали мир, а не частных лиц». Хорошая цель, но насколько она достижима?
«Это заставляет задуматься, сколько информации о себе мы невольно сливаем в ситуациях, где ожидаем анонимности», — справедливо отмечает доцент Флориан Трамер из Цюриха. Получается, приватность утекает через те самые слова, которые мы считаем безопасными.
Существует ли анонимность в диалоге с ботом?
Парадокс в том, что эта угроза приватности — прямое следствие того, что делает чат-ботов такими умными. Их обучают на гигантских массивах интернет-текстов, и в процессе они становятся сверхчувствительными к языковым шаблонам.
Общая информация тонко коррелирует с манерой речи. Например, определённые диалекты, сленг или даже упоминание бытовых мелочей могут быть связаны с местом проживания, возрастом или профессией. Модель собирает эти микроскопические подсказки и строит предположение.
- Скажете «проехался на трамвайчике»? Модель может заподозрить, что вы из Европы и сейчас утро. Но это цветочки. Эксперименты показывают, что, комбинируя множество таких намёков, машина способна с впечатляющей точностью указать ваш город, пол, возраст и расу. Вы всё ещё думаете, что ваши сообщения ни о чём не говорят?