Об этом же в других СМИ

habr.com / 2 месяца назад

Claude врывается в мир 3D и музыки: коннекторы для Blender, Ableton, Canva Affinity, SketchUp и Adobe

habr.com / 2 месяца назад

Инвестбанкир предлагает уникальную сделку: особняк за 4,8 млн $ в обмен на акции Anthropic

habr.com / 2 месяца назад

OpenAI снова убила Codex – GPT-5.5 навсегда поглотила отдельную модель для кодинга

habr.com / 2 месяца назад

DeepSeek AI: “V4 отстаёт от лучших ИИ-моделей всего на 3–6 месяцев”

habr.com / 2 месяца назад

Любитель с ChatGPT Pro решил (новую) 60-летнюю математическую задачу Эрдёша

Больше по теме

21.04.2026 - 10:10 / habr.com

Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам

В сети появились предполагаемые данные технического отчёта DeepSeek V4 – таблица с результатами на 12 популярных бенчмарках. Автор твита под ником @xiangxiang103 опубликовал скриншоты, на которых свежий флагман китайской компании сравнивается с Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если цифры не подделка (а авторы утечки сами предупреждают, что официального подтверждения пока нет), то DeepSeek V4 уверенно забирает state-of-the-art по всем без исключения направлениям.

На MMLU-Pro (тест на междисциплинарные экспертные знания) DeepSeek V4 набирает 91,2 балла. Из конкурентов до 90 добрался только Gemini 3.1 Pro Preview – у него 90,0. GPT-5.3 остаётся на 88,4, а Claude Opus 4.6 – на 86,7. Разрыв в несколько пунктов означает, что отставание уже измеряется не “поколениями”, а конкретными цифрами – и догонять будет непросто.

Ещё плотнее ситуация на математическом олимпиадном бенчмарке AIME 2025:

DeepSeek V4 – 96,4

Gemini 3.1 Pro Preview – 95,0

GPT-5.3 – 94,6

Разница между лидером и бронзовым призёром – меньше двух задач. Математика перестала быть слабым местом для топ-моделей и больше не служит дифференциатором – теперь это поле битвы, где каждый процент выгрызается с трудом.

На платформе Codeforces (соревновательное программирование) DeepSeek V4 показывает 2767 рейтинговых баллов. Это уровень сильного человеческого гроссмейстера – модель пишет алгоритмический код почти как топовый спортсмен от мира спортивного программирования.

Однако как только дело доходит до починки реальных ошибок в настоящих репозиториях (бенчмарк SWE-bench Verified), потолок оказывается гораздо ниже: 59,6% у DeepSeek V4, у остальных ещё меньше. “Писать алгоритмы легко, чинить чужой код – трудно” – это правило пока не отменяли даже для самых сильных LLM.

Сам

технологии общество самит крипто gemini dmitrifriend eps

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Вышел Qwen-Image-2.0-Pro: улучшенные пространственные связи, текстуры и рендеринг текста habr.com / 2 месяца назад

Claude Opus 4.7, Qwen3.6 35B-A3B и конец pull request как формата habr.com / 2 месяца назад

Релиз Firefly AI Assistant: один чат, который управляет Photoshop, Illustrator и всем Creative Cloud habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 01:01

медицина люди наука общество депрессия Не зрение и не слух: шестое чувство, о котором многие даже не слышали

Это чувство играет центральную роль в способности человека определять, находится ли его организм в состоянии баланса.

17.07 / 23:26

продукты люди здоровье общество человек Почему не стоит полностью отказываться от соли - ответ врачей

Соль считают вредной, однако ее полное исключение из рациона может привести к неприятным последствиям для здоровья и самочувствия.

17.07 / 22:52

самит Знаменитости курс nintendo мода и стиль Casio выпустила лимитированные G-Shock в стиле культовой Mother 3: часы получили необычный дизайн и эксклюзивный способ продажи

Компания Casio официально представила новую лимитированную версию часов G-Shock DW-5600, созданную совместно с культовой игровой франшизой Mother от Nintendo. Новинка посвящена 20-летию игры Mother 3 и получила яркое оформление, вдохновленное одной из самых запоминающихся сцен проекта.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

Лента новостей

На главную страницу