OpenAI представила молниеносную модель для кода с 1000 токенов в секунду: GPT-5.3-Codex-Spark
OpenAI и Cerebras представили GPT-5.3-Codex-Spark – сверхбыструю модель для кода, которая доступна уже сегодня в виде research preview для подписчиков ChatGPT Pro. В отличие от больших размышляющих версий, Spark создан для работы в реальном времени: он делает 1000 токенов в секунду (это вообще законно?), почти не заставляя ждать ни первый токен, ни завершение ответа. Идея простая: убрать паузы из диалога с ИИ, чтобы разработчик мог прерывать, перенаправлять и тут же получать изменения – как при общении с живым коллегой.
GPT-5.3-Codex-Spark – это первая модель, которая по-настоящему использует преимущества партнёрства с Cerebras, анонсированного в январе. Она работает на специализированном чипе Wafer Scale Engine 3 – огромном монолитном ускорителе размером с пластину, который изначально заточен под инференс с минимальной задержкой. Cerebras берёт на себя задачи, где важна каждая миллисекунда, а GPU остаются основой для тяжёлых вычислений и балансировки стоимости.
Инженеры OpenAI не ограничились заменой железа: они переписали ключевые компоненты своей инфраструктуры, внедрили постоянное WebSocket-соединение и оптимизировали Responses API. Результат впечатляет даже без учёта Cerebras:
на 80% снизились накладные расходы на каждый клиент-серверный цикл;
на 30% упала стоимость обработки одного токена;
вдвое сократилось время до появления первого токена.
Эти улучшения будут постепенно распространены на все модели, но Codex-Spark получает их уже сейчас по умолчанию.
Несмотря на малый размер, Spark не жертвует качеством там, где это критично. На бенчмарках агентной разработки SWE-Bench Pro и Terminal-Bench 2.0 он показывает результаты, близкие к старшей версии GPT-5.3-Codex, – но укладывается в доли времени, которые требуются “большому
Читать на habr.com