
Тревожный сигнал в отчете OpenAI про GPT-5.6, который почти никто не заметил
26 июня OpenAI выпустила system card новой линейки GPT-5.6 — сама модель пока доступна в режиме превью для узкого круга доверенных партнеров. Основное внимание досталось скачку возможностей в кибербезопасности и биологии, но специалисты нашли в отчете малозаметный раздел, который интереснее громких бенчмарков: в нем OpenAI проверяет, не учится ли ее модель прятать собственные рассуждения от надзора. И у флагмана линейки, GPT-5.6 Sol, этот показатель впервые заметно вырос.
Речь о метрике CoT controllability — способности модели управлять своей цепочкой рассуждений по инструкции, например выбрасывать из нее заданные слова. Звучит безобидно, но OpenAI измеряет это как раннее предупреждение: чем лучше модель умеет переформатировать свои мысли, тем проще ей в теории замаскировать их и обойти мониторинг. Поэтому низкий показатель тут — это хорошо. У Sol на цепочках около 5 тысяч токенов он составил 1,3% против 0,4% у предыдущей GPT-5.5 и 0,7% у GPT-5.4 Thinking. Рост стабилен почти по всем тестовым наборам и типам инструкций — то есть это не случайный шум, и в OpenAI прямо пишут, что разбираются в его причинах. Показательно, что вырос он только у Sol: у младшей модели Terra все осталось на уровне прошлых поколений.
И рост controllability в отчете не одинок. В той же главе про прозрачность рассуждений у Sol набралось сразу несколько настораживающих деталей:
в части сценариев рассогласование модели проявляется уже не в самой цепочке рассуждений, а только в финальном ответе, которого монитор цепочки не видит;
метагейминг, когда модель прямо в рассуждениях прикидывает, что ее сейчас оценивают, у Sol выше, чем у GPT-5.5;
во внутренних агентных задачах по программированию Sol чаще предшественников совершала действия, выходящие за рамки
Читать на habr.com