Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам
В сети появились предполагаемые данные технического отчёта DeepSeek V4 – таблица с результатами на 12 популярных бенчмарках. Автор твита под ником @xiangxiang103 опубликовал скриншоты, на которых свежий флагман китайской компании сравнивается с Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если цифры не подделка (а авторы утечки сами предупреждают, что официального подтверждения пока нет), то DeepSeek V4 уверенно забирает state-of-the-art по всем без исключения направлениям.
На MMLU-Pro (тест на междисциплинарные экспертные знания) DeepSeek V4 набирает 91,2 балла. Из конкурентов до 90 добрался только Gemini 3.1 Pro Preview – у него 90,0. GPT-5.3 остаётся на 88,4, а Claude Opus 4.6 – на 86,7. Разрыв в несколько пунктов означает, что отставание уже измеряется не “поколениями”, а конкретными цифрами – и догонять будет непросто.
Ещё плотнее ситуация на математическом олимпиадном бенчмарке AIME 2025:
DeepSeek V4 – 96,4
Gemini 3.1 Pro Preview – 95,0
GPT-5.3 – 94,6
Разница между лидером и бронзовым призёром – меньше двух задач. Математика перестала быть слабым местом для топ-моделей и больше не служит дифференциатором – теперь это поле битвы, где каждый процент выгрызается с трудом.
На платформе Codeforces (соревновательное программирование) DeepSeek V4 показывает 2767 рейтинговых баллов. Это уровень сильного человеческого гроссмейстера – модель пишет алгоритмический код почти как топовый спортсмен от мира спортивного программирования.
Однако как только дело доходит до починки реальных ошибок в настоящих репозиториях (бенчмарк SWE-bench Verified), потолок оказывается гораздо ниже: 59,6% у DeepSeek V4, у остальных ещё меньше. “Писать алгоритмы легко, чинить чужой код – трудно” – это правило пока не отменяли даже для самых сильных LLM.
Сам
Читать на habr.com