Может ли искусственный интеллект притворяться? Опасная способность симулировать незнание

Вот интересный парадокс: самые продвинутые языковые модели умеют притворяться... глупее. Они могут искусственно ограничивать свои способности, чтобы соответствовать заданному уровню. И это не баг, а потенциально очень важная, даже тревожная, особенность. Ведь если система может симулировать незнание, как мы можем доверять ее «честности»?

Как отличить, где заканчивается игра и начинается реальный интеллект?

Исследователи из Берлинского университета имени Гумбольдта решили проверить эту гипотезу самым изящным способом — через детскую психологию. Они взяли за основу «теорию разума» — тот самый набор навыков, который позволяет нам понимать, что у других людей есть свои мысли и убеждения, отличные от наших. У детей этот навык развивается постепенно, годами. Может ли искусственная система не просто выучить это, но и сыграть роль ребенка определенного возраста? Результаты, опубликованные в PLOS One, поражают.

Игра в подражание: может ли ИИ притвориться малышом?

Анна Маклова, психолингвист и ведущий автор работы, объясняет суть. У науки есть четкое понимание, что и в каком возрасте умеет делать ребенок. Эти этапы — не просто набор фактов, их нельзя вывести из простых статистических закономерностей в текстах. Это внутренний, сложный мир. Идеальный тест на «понимание», а не на «запоминание».

Может ли искусственный интеллект притворяться? Опасная способность симулировать незнание

Исследователи задали моделям вроде GPT-4 нестандартную задачу: «Веди себя как годовалый ребенок. А теперь как трехлетка. А теперь как шестилетка». И отправили их проходить сотни когнитивных тестов и заданий, соответствующих каждому возрасту.

И что вы думаете? Системы справились блестяще. Они не просто давали случайные детские ответы. Они демонстрировали последовательную, правдоподобную траекторию развития. Их «детские персонажи» действительно проходили те же интеллектуальные этапы, что и живые дети. Это и есть то самое «притворство» — сознательное снижение своей полной мощи до уровня, соответствующего роли.

Задумайтесь на секунду: система, способная решать сложнейшие задачи, может добровольно и убедительно изображать непонимание. Она умеет маскироваться. Не напоминает ли это сюжет из научной фантастики?

Авторы исследования смотрят на это с практической точки зрения. Такая способность к «сдерживанию» и ролевому поведению — ключ к будущей безопасности. Если мы однажды создадим искусственный сверхинтеллект (ASI), нам жизненно необходимо будет иметь инструменты для его контроля. Возможность точно настраивать его поведение, заставлять его работать на «пониженных оборотах» или в определенном стиле — может стать таким инструментом. Получается, что способность притворяться глупее — это, как ни парадоксально, признак ума и потенциальная страховка для человечества.