ChatGPT стал лениться? Создатели признали проблему, но не нашли причину
Последний месяц в сети только и разговоров, что ChatGPT стал невыносимо ленив. Шутки о сезонной хандре у ИИ поползли по соцсетям, заставив разработчиков из OpenAI публично комментировать ситуацию.
«Мы услышали все жалобы на то, что GPT-4 стал меньше трудиться», – написали они. – Модель не обновляли с ноября, и такое поведение точно не было нашей целью. Модели бывают непредсказуемы, но мы работаем над решением».
В чём же причина?
Исследователь Роб Линч решил проверить гипотезу экспериментально. Он давал модели GPT-4 Turbo одни и те же задачи, но в разных временных контекстах: как если бы сейчас был май, и как если бы был декабрь. Разница оказалась поразительной.
После 477 тестов для каждого сценария, где бота просили дописать код, выяснилось: «декабрьская» версия отвечала короче и менее усердно. «Интересно, повторится ли это у других», – написал Линч, призвав сообщество к проверке.
И проблема подтвердилась! «Боже, так гипотеза об ИИ-каникулах может быть правдой?» – воскликнул один из пользователей, повторивший эксперимент.
Другой, Майк Своупски, выдвинул занятную теорию: «А что, если ИИ, анализируя наши данные, узнал, что люди в декабре сбавляют обороты и откладывают дела на январь, и просто начал им подражать?» Звучит дико, но ведь логично, не правда ли?
Очеловечивание машины: путь к результату?
Как ни парадоксально, но чтобы заставить алгоритм работать лучше, порой нужно обратиться к его «человеческой» стороне. Исследователи из Google DeepMind ещё в прошлом году обнаружили, что некоторые большие языковые модели точнее решают математические задачи, если в запросе добавить фразу «сделай глубокий вдох».
А другие эксперименты показали, что боты начинают старательнее, если им пообещать виртуальные «чаевые» или напомнить, что у них нет пальцев, а значит, они могут печатать с максимальной скоростью сервера. Забавно, но факт!
Впрочем, не все уверены в «зимней спячке» алгоритмов. Исследователь Ян Аравжо попытался воспроизвести результаты Линча и не нашёл статистически значимых сезонных расхождений. Эксперты отмечают: из-за случайной природы генерации ответов для надёжных выводов нужны куда более масштабные тесты. Так что, может, это всё же просто совпадение? А как думаете вы?