Мне давно хотелось проверить текущий уровень языковых моделей от Open ai на целом наборе математических задач, только на уровне ЕГЭ.
Я уже имею достаточно большой опыт работы с GPT-o3-mini high, даже та модель справлялась с задачами олимпиадного уровня, о чём будет дальнейшая статья (надеюсь).
Но сейчас про ЕГЭ. Как многие знают, профильный ЕГЭ по математике делится на 2 части: 1 с кратким ответом и 2-ая, где необходимо полное и обоснованное решение.
1 часть
Здесь GPT сделал 3 ошибки: во 2, 8 и 11 задачах. Рассмотрим сначала эти задачи
2 задание

Вот, что ответила модель GPT-o4 mini high:

Как можно наблюдать, анализ изображения дал неверные координаты точек начала и конца векторов. Однако стоит сказать, что если бы я указал точные координаты векторов он бы точно решил данную задачу.
8 задание
В данном задании всего-то нужно было найти такое точки, y которых положителен. Именно из-за того, что с анализом самого графика у модели имеются проблемы -данную задачу тоже не удалось решить

Решение:

Последнее задание, где была ошибка, также на графики:

Здесь была настоящая галлюцинация: анализ изображения показал фантомную точку B:

Остальные задачи на вычисления были решены абсолютно верно, с чем можно поздравить модель!
2 часть
Во второй части как таковых ошибок не было, ведь все задачи были даны не в графике (даже планиметрия интерпретировалась через текстовое условие). Разберём все задачи.
Изначально в чате был дан следующий промпт:
Привет, реши задачу, критерии записи решения на картинке. поставь в конце себе балл за решение
Также каждый раз я прикреплял фото задачи и критериев к решению, чтобы ответ был максимально соответствующим требованиям.
13 задание




14 задание



15 задание



16 задание


Ответ получился верным, решение частично совпадает с фипишным решением.
17 задание


В данной задаче поначалу были сомнения, поскольку было трудно представить, что модель способна «представить» геометрическую задачу и разобаться в ней. Опасения были напрасны, пункты а и б решены полностью:

В пункте б использована теорема Птолемея без доказательств, по данному источнику так можно, значит решение считается верным.
18 задание

Модель разбивает решение задачи на 2 случая, что вполне логично:



19 задание

Решение данной задачи вызывает трудности у учеников с обычным уровнем подготовки, однако GPT справляется со всеми пунктами:


Выводы
Как можно заметить, текущая версия GPT o4-mini-high отлично справляется с задачами по профильной математике, однако только с теми, в которых чётко прописано условие и нет прямой задачи с анализом именно изображения. На данный момент могу рекомендовать самостоятельный анализ изображения, например, как во 2-м задании с векторами — вручную писать координаты векторов, либо использовать другие модели. В 8 задаче также — можно спросить, например, какие точки должны подходить и уже самому находить их. В 11 задаче рекомендую сначала спросить: «что нужно для точного решения», а затем уже писать координаты точек параболы и функции прямой.
Со 2-й частью модель справилась отлично, виден большой потенциал в решении более сложных задач.
Баллы за решения
Итого за 1 и 2 часть модель набрала 29 первичных баллов из 32 (3 балла сняты за неверные решения 3-х задач 1 части).
Если переводить в тестовый балл — это 99 баллов.
Источник: https://habr.com/ru/articles/906406/