Об этом же в других СМИ

incrypted.com / 7 месяцев назад

OpenAI представила GPT-5.2 на фоне усиления конкуренции с Google

gagadget.com / 7 месяцев назад

OpenAI выпустила GPT-5.2: новую модель для профессиональных задач

habr.com / 7 месяцев назад

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

habr.com / 7 месяцев назад

OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах

habr.com / 7 месяцев назад

После GPT-4o OpenAI не выпустила ни одной по-настоящему новой модели ИИ — SemiAnalysis

Больше по теме

22.11.2025 - 09:03 / habr.com

OpenAI выпустили GPT-5.1-Codex-Max

OpenAI представили GPT-5.1-Codex-Max. Модель обучали на реальных инженерных задачах — от создания PR до отладки и фронтенда. Она доступна в Codex в CLI, IDE и Cloud, а API готовят к запуску.

Модель показывает рост точности. На SWE-Lancer результат вырос с 66.3% до 79.9%. На SWE-Bench Verified — с 73.7% до 77.9% при более экономном использовании thinking-токенов. Для сравнения: при среднем уровне рассуждений она тратит примерно на треть меньше токенов, чем предыдущая версия. По заверениям OpenAI на длинных сессиях модель способна работать более 24 часов, последовательно фиксируя тесты и дорабатывая код.

Напомню, что текущим лидером по SWE-Bench был Sonnet 4.5 от Claude со значением 77.2%. Теперь первую строчку будет занимать GPT-5.1-Codex-Max.

GPT-5.1-Codex-Max рассчитана на длительную и детализированную работу. Это наша первая модель, которая изначально обучена работать через несколько контекстных окон благодаря процессу, который называется компакцией: она последовательно и согласованно оперирует миллионами токенов в рамках одной задачи. Это открывает возможности для рефакторинга уровня всего проекта, глубоких сессий отладки и многочасовых агентных циклов.

GPT-5.1-Codex-Max стал заметно эффективнее в расходовании токенов благодаря улучшенным механизмам рассуждения. На SWE-Bench Verified GPT-5.1-Codex-Max с уровнем рассуждения medium показывает лучшие результаты, чем GPT-5.1-Codex при тех же условиях, используя при этом на 30% меньше thinking-токенов.

Для задач, где задержка не критична, OpenAI добавили новый режим рассуждения — Extra High (xhigh): он думает дольше и выдаёт более качественный результат. Тем не менее, в большинстве случаев мы рекомендуем режим medium как основной.

Благодаря этому нововведению ожидается улучшение

экономика закон история курс крипто Enterprise pythonleader

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

GPT-5.1, DeepSeek и другие ИИ ушли в минус торгуя акциями за реальные деньги habr.com / 7 месяцев назад

Сэм Альтман обязался на $1,4 трлн на датацентры для ИИ. Если гигантский эксперимент не удастся, предприниматель не будет отвечать за массовые расходы OpenAI. Как это возможно? forbes.ua / 7 месяцев назад

OpenAI восстановила доступ к GPT для FoloToy — производителя игрушек с ИИ, замеченных в непристойных разговорах с детьми habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 23:46

Почему смартфон заряжается медленно: дело может быть не в кабеле

При покупке кабеля для смартфона специалисты советуют учитывать не только его длину, но и качество изготовления.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

Лента новостей

На главную страницу