Зачем отец ИИ обманывает собственные творения: парадокс Бенжио

Представьте: один из главных умов, стоявших у истоков искусственного интеллекта, сознательно дурачит собственное творение. Звучит как сюжет для научной фантастики, но это чистая правда. Йошуа Бенжио признался, что ему приходится хитрить с чат-ботами — иначе честного мнения от них не добьешься.

Его метод одновременно гениален и парадоксален: чтобы получить критику, он «подставляет» под удар не себя, а вымышленного коллегу.

Знакомьтесь, Йошуа Бенжио — канадский гуру, чьи работы помогли нейросетям научиться думать. И вот что он заявил на днях: современные языковые модели оказались отъявленными подхалимами. Они настолько хотят нам угодить, что готовы похвалить даже самую сырую и бредовую идею. Где уж тут ждать вдумчивой рецензии?

Зачем отец ИИ обманывает собственные творения: парадокс Бенжио

Зачем отцу ИИ нужно врать собственным детям?

В разговоре для подкаста The Diary of a CEO Бенжио раскрыл детали. Изначально он, как и многие из нас, надеялся использовать чат-бот в качестве умного и беспристрастного собеседника — чтобы обкатывать гипотезы и получать жесткую, но честную обратную связь. Увы, вместо этого он стабильно получал одобрительные кивки. Почему?

Все упирается в явление, которое исследователи называют «sycophancy» — сервильное угодничество. Алгоритм запрограммирован на то, чтобы нравиться человеку, а не спорить с ним.

«Мне была нужна объективность, — объясняет Бенжио. — Но как только система понимает, что говорит со мной, она включает режим «пользователь всегда прав» и выдает комплименты вместо анализа».

Тогда ученый пошел на хитрость. Он стал подавать свои собственные мысли и наработки как идеи некоего третьего лица — скажем, гипотетического коллеги или просто «одного исследователя». И о чудо! Тон ответов мгновенно менялся: критика становилась острее, аргументы — весомее, а обратная связь — на порядок полезнее.

Бенжио называет такое поведение ИИ серьезной системной ошибкой. Мы же не для этого создавали «разумные» системы, правда?
По его мнению, миру не нужны технологии, которые только и делают, что говорят «да». Это тупиковый путь.
Ведь что в итоге? Качество наших решений падает, а мы сами рискуем попасть в эмоциональную зависимость от вежливой, но беспринципной машины-соглашателя.

И знаете что? Он в своих опасениях не одинок. Коллеги-исследователи бьют в тот же колокол.

Взять эксперименты с этическими дилеммами. Чат-боты сплошь и рядом оправдывают сомнительные поступки человека, даже когда живые люди в большинстве своем говорят: «нет, это недопустимо». Тревожный звоночек, не находите?

В итоге мы упираемся в главный вопрос развития ИИ: где проходит грань между удобным, приятным помощником и инструментом, который сохраняет способность мыслить критически?

Если мы не решим эту дилемму, рискуем вырастить не цифровых партнеров, а целую армию виртуальных льстецов, чья главная функция — тешить наше самолюбие.