Вышла GPT-5.5 — модель, которая сама создала часть своего инференса
OpenAI выпустила GPT-5.5 — новый флагман, который, по заявлению компании, помог оптимизировать собственный инференс-стек. По словам OpenAI, GPT-5.5 в кодинг-агенте Codex оптимизировала производительность: в частности, Codex проанализировал недели продакшн-трафика и написал алгоритм балансировки запросов между вычислительными ядрами GPU — после этого скорость генерации токенов в продакшне выросла больше чем на 20%. GPT-5.5 и GPT-5.5 Pro сегодня раскатываются в ChatGPT и Codex для Plus, Pro, Business и Enterprise пользователей; в API OpenAI обещает поставить модель в ближайшее время.
Это продолжение тренда, который компания обозначила еще с GPT-5.3-Codex в феврале, — тогда ранние версии модели помогали команде дебажить собственное обучение и анализировать результаты оценки. С GPT-5.5 шаг крупнее: раньше запрос на GPU делился на фиксированное число кусков, что было неоптимально для реальных паттернов нагрузки, — теперь схема динамическая, и код для нее написала сама модель через Codex.
Побочный эффект этой работы — задержки не выросли. Крупные модели обычно обслуживаются медленнее, но по задержке на токен GPT-5.5 в продакшне совпадает с GPT-5.4 при заметно более высоком уровне интеллекта. На тех же задачах в Codex новая модель использует меньше токенов, чем предшественница.
На бенчмарках GPT-5.5 обгоняет почти всех конкурентов. На Terminal-Bench 2.0, где оценивают агентные задачи в командной строке, модель берет 82,7% — против 69,4% у Claude Opus 4.7 и 68,5% у Gemini 3.1 Pro. На FrontierMath Tier 4 — 35,4% против 22,9% у Opus 4.7. На ARC-AGI-2 — 85,0%. Особенно заметен скачок на длинном контексте: на Graphwalks BFS с окном в миллион токенов модель выдает F1-метрику 45,4% против 9,4% у GPT-5.4. На SWE-Bench Pro — 58,6%, чуть
Читать на habr.com