Об этом же в других СМИ

habr.com / 4 месяца назад

ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

habr.com / 4 месяца назад

Индийский стартап Sarvam запустил конкурента ChatGPT: Indus AI (105B)

habr.com / 4 месяца назад

Gemini 3.1 Pro обошел Claude и GPT в рейтинге интеллекта, но главный сюрприз – в цене

gagadget.com / 4 месяца назад

Красный становится фаворитом: Apple тестирует новый дизайн для iPhone Pro

habr.com / 4 месяца назад

Галлюцинации недели: GPT-5.3-Codex-Spark, Sonnet 4.6 и китайский MoE-десант

Больше по теме

09.02.2026 - 09:00 / habr.com

Релиз OpenAI GPT-5.3-Codex – на 25% быстрее, новые достижения на SWE-Bench Pro и Terminal-Bench

OpenAI представила GPT-5.3-Codex – новую флагманскую модель, которая является самым мощным агентом для кодирования на сегодняшний день. Модель на 25% быстрее предыдущей версии, объединяет передовые возможности кодирования GPT-5.2-Codex с рассуждениями и профессиональными знаниями GPT-5.2, а также знаменует собой важный концептуальный сдвиг.

GPT-5.3-Codex – это первая модель OpenAI, которая активно участвовала в создании самой себя.

Как утверждается в блоге компании, команда Codex использовала ранние версии модели для отладки ее же обучения, управления развертыванием и диагностики результатов тестов. “Наша команда была потрясена тем, насколько Codex смог ускорить собственное развитие”, – пишут разработчики.

С технической точки зрения модель устанавливает новый state-of-the-art на SWE-Bench Pro (бенчмарк для кодинга) и Terminal-Bench 2.0, демонстрируя лидерство в терминальных навыках. При этом она достигает этих результатов, расходуя меньше токенов, чем предыдущие модели.

В сфере профессиональных знаний, измеряемой тестом GDPval, GPT-5.3-Codex соответствует уровню GPT-5.2.

Впечатляющий прогресс наблюдается в области десктопного использования: модель показывает значительный рост на OSWorld-Verified – бенчмарке, который оценивает выполнение задач в визуальной среде Ubuntu, Windows и macOS. Codex эволюционирует из агента, пишущего код, в агента, способного делать почти все то же, что разработчики и профессионалы делают на компьютере.

Одной из ключевых новых фич является интерактивность. GPT-5.3-Codex позиционируется не как “черный ящик”, который выдает готовый ответ, а как коллега в реальном времени. Модель может делиться прогрессом, объяснять свои решения и позволяя пользователю направлять ход мыслей в процессе работы, а не ждать

технологии Nvidia общество самит крипто dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Рекламные ролики Anthropic на Супербоуле, высмеивающие рекламу в ChatGPT, вывели приложение Claude в топ-10 habr.com / 4 месяца назад

Дориан Кикен, работавший над Mass Effect, присоединился к CD Projekt Red в роли ИИ-директора habr.com / 4 месяца назад

А вы знали, что в Pinterest ищут чаще, чем в ChatGPT? Мы тоже нет habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 23:46

технологии смартфон самит гаджет Почему смартфон заряжается медленно: дело может быть не в кабеле

При покупке кабеля для смартфона специалисты советуют учитывать не только его длину, но и качество изготовления.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

Лента новостей

На главную страницу