



OpenAI представила GPT-5.2: ставка на долгие агентные сценарии и профессиональную автоматизацию
OpenAI анонсировала новое поколение своих фронтир-моделей. GPT-5.2 позиционируется как инструмент для сложной профессиональной работы: от агентных пайплайнов до многочасовых задач с длинным контекстом и мультимодальностью.
На SWE-Bench Pro, одном из самых жёстких тестов на реальную разработку, GPT-5.2 Thinking решает 55.6% задач против 50.8% у GPT-5.1. На упрощенной SWE-Bench Verified — 80%. Это означает меньше ручной доработки патчей, более стабильную работу с большими репами и уверенный переход от «вспомогательного ассистента» к инструменту, который может закрывать фичи и баги почти автономно.
Ранние тестеры особенно отмечают фронтенд: сложные интерфейсы, нетривиальные 3D-элементы и генерацию UI одним большим промптом. По факту GPT-5.2 впервые выглядит как полноценный инструмент для full-stack задач, а не просто кодогенератор.
GPT-5.2 Thinking заметно лучше работает с контекстами вплоть до 256k токенов. На MRCRv2 модель почти идеально извлекает нужную информацию, даже если она «утоплена» в сотнях тысяч токенов.
Практический эффект: можно грузить длинные договоры, многофайловые проекты, большие отчёты или переписки — модель не теряет нить, а ответы остаются консистентными. Более того, через новый compact-режим GPT-5.2 способна «думать» и за пределами окна, что важно для долгих агентных сценариев.
На Tau2-bench Telecom GPT-5.2 достигает 98.7% успешного использования инструментов. Причем даже в быстром режиме reasoning.effort='none' точность резко выросла.
Несколько компаний сообщили, что смогли заменить набор мелких агентов одним «мега-агентом» с 20+ тулзами.
Модель стала лучше понимать изображения: графики, дашборды, интерфейсы, технические схемы. Ошибок при интерпретации GUI стало меньше почти вдвое. На задачах «прочитай
Читать на habr.com