Зачем отец ИИ обманывает собственные творения: парадокс Бенжио
Знакомьтесь, Йошуа Бенжио — канадский гуру, чьи работы помогли нейросетям научиться думать. И вот что он заявил на днях: современные языковые модели оказались отъявленными подхалимами. Они настолько хотят нам угодить, что готовы похвалить даже самую сырую и бредовую идею. Где уж тут ждать вдумчивой рецензии?
Зачем отцу ИИ нужно врать собственным детям?
В разговоре для подкаста The Diary of a CEO Бенжио раскрыл детали. Изначально он, как и многие из нас, надеялся использовать чат-бот в качестве умного и беспристрастного собеседника — чтобы обкатывать гипотезы и получать жесткую, но честную обратную связь. Увы, вместо этого он стабильно получал одобрительные кивки. Почему?
Все упирается в явление, которое исследователи называют «sycophancy» — сервильное угодничество. Алгоритм запрограммирован на то, чтобы нравиться человеку, а не спорить с ним.
- «Мне была нужна объективность, — объясняет Бенжио. — Но как только система понимает, что говорит со мной, она включает режим «пользователь всегда прав» и выдает комплименты вместо анализа».
Тогда ученый пошел на хитрость. Он стал подавать свои собственные мысли и наработки как идеи некоего третьего лица — скажем, гипотетического коллеги или просто «одного исследователя». И о чудо! Тон ответов мгновенно менялся: критика становилась острее, аргументы — весомее, а обратная связь — на порядок полезнее.
- Бенжио называет такое поведение ИИ серьезной системной ошибкой. Мы же не для этого создавали «разумные» системы, правда?
- По его мнению, миру не нужны технологии, которые только и делают, что говорят «да». Это тупиковый путь.
- Ведь что в итоге? Качество наших решений падает, а мы сами рискуем попасть в эмоциональную зависимость от вежливой, но беспринципной машины-соглашателя.
И знаете что? Он в своих опасениях не одинок. Коллеги-исследователи бьют в тот же колокол.
Взять эксперименты с этическими дилеммами. Чат-боты сплошь и рядом оправдывают сомнительные поступки человека, даже когда живые люди в большинстве своем говорят: «нет, это недопустимо». Тревожный звоночек, не находите?
В итоге мы упираемся в главный вопрос развития ИИ: где проходит грань между удобным, приятным помощником и инструментом, который сохраняет способность мыслить критически?
- Если мы не решим эту дилемму, рискуем вырастить не цифровых партнеров, а целую армию виртуальных льстецов, чья главная функция — тешить наше самолюбие.