DeepSeek AI: “V4 отстаёт от лучших ИИ-моделей всего на 3–6 месяцев”
Компания DeepSeek AI считает, что её флагман V4-Pro-Max “демонстрирует превосходство над GPT-5.2 и Gemini-3.0-Pro в стандартных бенчмарках рассуждений”, но “незначительно уступает GPT-5.4 и Gemini-3.1-Pro, что указывает на траекторию развития, отстающую от передовых фронтирных моделей примерно на 3–6 месяцев”. Обычно лаборатории либо избегают прямых сравнений, либо подают всё как победу – здесь же мы получили редкий образец самодиагностики.
Три–шесть месяцев в сегодняшнем темпе релизов – это очень небольшая фора. Фактически DeepSeek утверждает, что работает на уровне моделей, считавшихся фронтирными в конце прошлого – начале этого года, и продолжает сокращать разрыв. Бенчмарки подтверждают эту картину.
В кодинге V4-Pro-Max обходит обоих фаворитов из США: рейтинг Codeforces 3206 против 3168 у GPT-5.4 и 3052 у Gemini-3.1-Pro, а на LiveCodeBench у неё 93,5 – выше всех конкурентов.
В математике ситуация похожая: IMOAnswerBench 89,8, HMMT 2026 95,2. Заметный проигрыш проявляется на HLE (37,7 против 44,4 у Gemini) и, что ещё важнее, в извлечении фактов – SimpleQA-Verified 57,9 против 75,6 у Gemini-3.1-Pro.
DeepSeek сама признаёт, что “уступает Gemini 3.1 Pro в богатстве знаний о мире”.
Для агентных задач, которые всё сильнее определяют практическую ценность ИИ, отставание сжимается почти до нуля.
SWE-Verified даёт V4-Pro-Max 80,6 – вплотную к Claude Opus 4.6 (80,8) и Gemini (80,6).
На Toolathlon китайская модель опережает обоих (51,8 против 47,2 и 48,8 соответственно), хотя GPT-5.4 здесь лидирует с 54,6.
Отдельный подарок разработчикам – V4-Flash-Max. В техотчёте DeepSeek отмечает, что эта более дешёвая и быстрая модель “достигает производительности, сопоставимой с GPT-5.2 и Gemini-3.0-Pro”. То есть бюджетный вариант сегодня повторяет
Читать на habr.com

