Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки
Независимые тесты показали, что модель o1 от OpenAI решает лишь 30% программных задач в бенчмарках, а не 48,9%, как утверждала компания. Эти результаты добавляют масла в огонь растущей дискуссии о том, как измерять возможности AI.
В своем новом исследовании, используя кодировочный бенчмарк OpenAI "SWE-Bench Verified", исследователь AI Александро Квадрон обнаружил то, что он называет удивительным разрывом. В то время как OpenAI сообщала, что их модель справляется почти с половиной реальных программных задач с GitHub, тестирование Квадрона показывает, что она решает менее трети задач.
Sonnet 3.5 от Anthropic обошел конкурентов, решив 53 процента задач — возможно, потому что модель помогала разрабатывать саму процедуру тестирования. Примечательно, что менее дорогая модель Deepseek v3 показала результаты примерно на уровне o1 от OpenAI в тестах Квадрона.
Почему такое большое различие? Разрыв между заявлениями OpenAI и выводами Квадрона объясняется методами тестирования. OpenAI использовала "Agentless" — фреймворк, предоставляющий AI очень конкретные инструкции для решения программных задач. Квадрон, с другой стороны, использовал "OpenHands", который дает AI больше свободы в подходе к решению проблем.
Квадрон утверждает, что OpenHands считался золотым стандартом, когда OpenAI проводила свои тесты, но они решили его не использовать. Он подозревает, что более жесткий метод тестирования OpenAI может отдавать предпочтение моделям, которые просто запоминают решения, вместо того чтобы действительно решать новые проблемы независимо.
Это не просто академическая придирка. OpenAI подчеркивала якобы сильные стороны o1 в области рассуждений и способности справляться с новыми задачами. "Но почему o1 испытывает трудности с истинным открытым
Читать на habr.com