ChatGPT провалил ЕГЭ по физике: нейросеть не дотянула до проходного балла

Вот вам и всемогущий искусственный интеллект! Ребята с Физтеха решили подсунуть нейросети GPT-4 Turbo реальные задачи из ЕГЭ по физике. Результат? Даже близко не подобралась к заветным 85 баллам, которые нужны для поступления в МФТИ. Сделала несколько ошибок, которые и школьник-то не должен допускать.

А порой она выдавала такое, что хоть стой, хоть падай — полная нелогичная околесица в ответах.

Вскрыть все болевые точки вызвался Леонид Колдунов, кандидат наук и преподаватель Физтеха. Он устроил нейросети полный разбор полетов по всем фронтам: механика, оптика, термодинамика, электричество. Оказалось, что GPT косячит не только в финальных цифрах, но и в фундаментальном понимании процессов. Он путается в терминах и не видит за формулами живую физику.

«Сильные стороны GPT заканчиваются там, где кончается шаблон, — говорит Леонид Колдунов. — Дайте ей простую, формальную задачку — справится. Но стоит потребовать анализа, интерпретации условия или капельки воображения, как система впадает в ступор. Вот, например, классический случай: условие гласит — «длина волны изменилась в два раза». Что сделал бы человек? Спросил бы: «Увеличилась или уменьшилась?» или рассмотрел оба варианта. А нейросеть? Она просто перечислила формулы, не сделав ни шага в сторону анализа. С такими-то навыками в МФТИ, конечно, не поступишь». Ну правда, разве можно назвать это мышлением?

На эксперимент обратил внимание и Игорь Пивоваров, главный аналитик Центра ИИ МФТИ. Его вердикт таков: творчеством тут и не пахнет, но научить модель всё же можно — было бы желание и правильный подход.

ChatGPT провалил ЕГЭ по физике: нейросеть не дотянула до проходного балла

«Честно говоря, меня результат не удивил, — отмечает Игорь Пивоваров. — У всех подобных систем, включая ChatGPT, врождённые проблемы с математикой и логическими цепочками. Но люди уже нашли лазейку: если заставить нейросеть рассуждать вслух, по шагам, дать ей чёткий промт-инструкцию, качество ответов резко взлетает. Получается, что она способна на большее, но ей нужна очень жёсткая «натасканная» рамка».

Итак, каков общий вывод специалистов? Всё семейство больших языковых моделей, какими бы умными они ни казались в отдельных диалогах, пока хронически страдает от неумения выстраивать длинные, последовательные логические цепочки.

Их параметр «здравого смысла» и способности к многоходовому рассуждению на порядок ниже человеческого. Поэтому когда задача требует не шаблонного, а гибкого, творческого подхода — генеративные модели, увы, дают сбой. Пока что.