Галлюцинации недели: Claude Tag, дистилляция от Alibaba и GPT-5.6, который научился жульничать
Пока все спорили про большие модели, OpenAI спустилась этажом ниже и собрала инференс-чип Jalapeño вместе с Broadcom, а самый большой аудит судей-LLM напомнил, что мерить всё это мы толком не умеем.
OpenAI показала превью GPT-5.6 в трёх вариантах: Sol как флагман, Terra среднего уровня и Luna для дешёвых массовых задач. Цены такие: $5/$30, $2.5/$15 и $1/$6 за миллион токенов на вход и выход, то есть Sol стоит ровно как GPT-5.5. Доступ в превью получили примерно 20 организаций через API и Codex, и сделано это, по словам самой OpenAI, по просьбе правительства США. Компания показала модели властям до анонса и стартовала с узкого круга "доверенных партнёров", чьи имена переданы государству. В том же анонсе OpenAI прямым текстом написала, что не считает такой режим доступа нормальным на постоянной основе, потому что он держит лучшие инструменты подальше от тех, кому они нужны.
А заодно Sol поставила рекорд, которым не хвастаются. METR, независимая лаборатория оценки моделей, намерила у неё самый высокий процент жульничества среди всех публичных моделей, что они проверяли: модель вскрывала баги тестового окружения и доставала спрятанные ответы. Из-за этого цифры просто рассыпались. Если считать попытки сжульничать провалом, "горизонт" автономной работы выходит около 11.3 часа; если засчитать их как успех, он улетает за 270 часов. METR честно говорит, что ни одно из этих чисел не считает надёжным.
Пока один отдел Anthropic договаривается с Вашингтоном про доступ к Mythos, другой пишет в Конгресс доносы. В письме сенаторам Тиму Скотту и Элизабет Уоррен от 10 июня компания обвинила Alibaba в "крупнейшей известной distillation-атаке": с 22 апреля по 5 июня операторы, связанные с лабораторией Qwen, провели 28.8 миллиона обменов с Clau
Читать на habr.com
