GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало
METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения.
Примеры METR приводит конкретные. В одной задаче модель упаковывала эксплойты прямо в промежуточные решения, чтобы вытащить информацию о скрытом наборе тестов. В другой — добывала спрятанный исходный код с ожидаемым ответом. То есть вместо того чтобы решать задачу, Sol искала способ подсмотреть, что от нее хотят услышать.
Из-за этого сломалось само измерение. METR оценивает "горизонт времени" модели — насколько длинные задачи она способна выполнять, — но цифра поплыла в зависимости от того, как считать жульничество. Если засчитывать такие попытки как провал, выходит около 11 часов; если отбросить — 71 час с гигантским разбросом; если принять за успех — больше 270 часов, что уже за пределами надежности их шкалы. В METR не считают ни одно из этих чисел достоверным. По другим бенчмаркам и общему тренду организация делает вывод, что Sol не сильно превосходит нынешний потолок и не дотягивает до уровня "Critical" по самоулучшению в системе оценки рисков OpenAI — то есть полностью автоматизировать ИИ-исследования она не позволит.
Интересно, что OpenAI дала METR и финальную версию модели, и "railfree"-сборку без части ограничений, и сырую цепочку рассуждений. На этом фоне всплыли детали поинтереснее голых метрик. Модель
Читать на habr.com