Об этом же в других СМИ

habr.com / 5 дней назад

incrypted.com / 5 дней назад

OpenAI запустила ChatGPT Work на базе GPT-5.6

gagadget.com / 5 дней назад

OpenAI представила ChatGPT Work, который работает с браузером, файлами и приложениями

habr.com / 6 дней назад

Codex получит GPT-5.6 Ultra

gagadget.com / 1 неделю назад

OpenAI запускает GPT-5.6: три новые модели, которые прошли через «фильтр» Белого дома

Больше по теме

25.06.2026 - 07:04 / habr.com

Мощнее Mythos 5 и не запрещена: OpenAI выпустила GPT-5.5-Cyber для поиска уязвимостей

OpenAI расширила свою кибербез-программу Daybreak и выпустила полную версию модели GPT-5.5-Cyber. На бенчмарке CyberGym она набрала 85,6% — рекорд для одиночной модели. Но интрига в другом: на том же графике OpenAI второе место заняла Mythos 5 (83,8%) — та самая модель Anthropic, которую, вместе с публичной Fable 5, США неделей ранее экспортным запретом отрезали от всего мира.

Напомню фон. 12 июня Министерство торговли США выпустило экспортную директиву, запретившую Anthropic давать доступ к Fable 5 и Mythos 5 любым иностранцам — включая собственных сотрудников-неграждан. Компании пришлось отключить обе модели глобально. Причина — кибер-возможности: власти узнали о способе обойти защитные механизмы у Fable 5, которые как раз должны были закрывать доступ к потенциально опасным возможностям базовой Mythos.

Оговорюсь честно: "мощнее" здесь держится только на CyberGym и только на 1,8 пункта, а сам бенчмарк меряет воспроизведение уже известных уязвимостей. По автономному наступательному киберу Mythos, по заявлениям Anthropic, заметно сильнее. И GPT-5.5-Cyber тоже выдается не всем — только верифицированным защитникам. Разница в одном: ее никто не банил.

Стоит присмотреться и к самому "рекорду". CyberGym проверяет, может ли агент воспроизвести известную уязвимость в реальном окружении. Свой SOTA OpenAI считает относительно собственной же GPT-5.5 (81,8%) — а не относительно Mythos 5, которая по их графику стоит выше всех публичных моделей OpenAI и уступает только новой Cyber-версии. На двух других тестах разрыв с базовой GPT-5.5 нагляднее: 39,5% против 25,95% на ExploitGym (превращение уязвимости в рабочий эксплойт) и 69,8% против 63,1% на SEC-bench Pro.

В само расширение Daybreak вошло несколько частей. Главная новинка — Patch the

история самит runawayllm США Ес

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Альтман предложил создать «МАГАТЭ для ИИ» под руководством США habr.com / 1 неделю назад

Безработицы от ИИ нет: экономист OpenAI объяснил, почему прогнозы не сбылись habr.com / 1 неделю назад

Китайская ИИ-модель GLM-5.2 приблизилась к Claude Mythos в поиске уязвимостей. Что это меняет для ИБ habr.com / 1 неделю назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

15.07 / 18:38

технологии происшествия ученые искусственный интеллект В ChatGPT обнаружили опасную уязвимость, позволявшую обойти защиту

Обычный на первый взгляд запрос помог выявить неожиданную особенность работы защитных механизмов ChatGPT.

Лента новостей

На главную страницу