Об этом же в других СМИ

gagadget.com / 2 месяца назад

ChatGPT теперь может анализировать расходы и сбережения пользователей: как работает новая функция OpenAI

gagadget.com / 2 месяца назад

Vivo X500: когда 7000 мА/ч становятся новым минимумом для флагмана

gagadget.com / 2 месяца назад

Фильм The Legend of Zelda выйдет на неделю раньше — его премьеру перенесли в третий раз

gagadget.com / 2 месяца назад

Трассировка лучей, огромная батарея и новейший чипсет Dimensity 9500 Monster — главные подробности геймерского флагмана iQOO 15T

habr.com / 2 месяца назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

Больше по теме

30.04.2026 - 07:45 / habr.com

Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

Codex на Mac становится супераппом, Anthropic выкатила постмортем на собственные баги, а DeepSeek на 58 страницах объяснил, почему у них лучшая open weight модель.

OpenAI выпустила GPT-5.5 и позиционирует её как "флагман для реальной работы и автономных потоков". Цена $5 за миллион входных и $30 за миллион выходных токенов, у Pro варианта $30/$180. Это ровно вдвое дороже GPT-5.4 за токен. Идею "за это надо платить" компенсируют тем, что модель тратит токенов меньше: Artificial Analysis отрапортовала ~40% сокращения расхода токенов по их Intelligence Index, и итоговый счёт растёт всего на ~20%. Контекст 1M в API, 400K в Codex.

Бенчмарки это подтверждают. Terminal-Bench 2.0: 82.7%, OSWorld-Verified: 78.7%, SWE-Bench Pro: 58.6%. ARC Prize подтвердил ARC-AGI-2 на 85.0% при цене $1.87 за задачу. На Intelligence Index от AA модель заняла чистое первое место, при этом GPT-5.5 medium сравнялся с Claude Opus 4.7 max при ~четверти стоимости. Дэн Шиппер из Every протестировал её на их Senior Engineer benchmark, 62/100 против 33/100 у Opus 4.7, причём лучшие результаты получились, когда план писал Opus, а реализовывал GPT-5.5.

Ложка дёгтя у этой модели одна и большая. Hallucination rate на AA-Omniscience у GPT-5.5 — 86%. У Opus 4.7 этот же показатель 36%, у Gemini 3.1 Pro Preview 50%. Если планируете использовать её там, где правда важнее темпа, это надо держать в голове.

Главное событие дня прячется не в самой модели. К релизу Codex Mac App прикрутили управление браузером, работу с Sheets и Slides, Docs и PDF, системную диктовку и автоматический ревью кода. WSJ ещё в марте писали, что OpenAI готовит desktop superapp, и теперь понятно, на чём он строится.

DeepSeek дропнул долгожданную V4. Это первое крупное обновление архитектуры с DSV3,

технологии история самит крипто токен gemini eps

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

DeepSeek вспомнил всё: в популярном ИИ-сервисе появился поиск по истории чатов gagadget.com / 2 месяца назад

Sony назвала дату презентации нового флагмана Xperia и намекнула на обновленный дизайн основной камеры ilenta.com / 2 месяца назад

Конец независимости DeepSeek: лаборатория Ляна Вэньфэна идет за деньгами habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:49

люди ученые общество самит человек Почему волосы бывают прямыми или кудрявыми - ответ ученых

Исследователи объяснили, с какими факторами связано появление прямых или кудрявых волос от рождения.

22.07 / 03:31

Nvidia общество политика самит изоляция Проект HAMi для виртуализации ускорителей перешел в инкубатор CNCF

Зачастую дорогие графические процессоры фрагментируются и простаивают. Классическая проблема — задача забирает видеокарту целиком, хотя в действительности использует лишь малую часть ее ресурсов. Как в таком случае эффективно распоряжаться кластером? Не забываем, что оборудование поставляется разными вендорами, каждый из которых предлагает свою модель управления.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

Лента новостей

На главную страницу