Anthropic ускорила модель Opus 4.6: скорость выросла в 2,5 раза, а цена в 6
Не так давно, Anthropic представила модель Claude Opus 4.6, в след за которой буквально сразу появился быстрый режим. В версии fast модель генерирует около 100 токенов в секунду - в 2,5 раза быстрее предыдущей версии. Однако за скорость приходится платить. Стоимость использования выросла в 6 раз.
Пользователи Claude Code могут активировать новую модель командой /fast. При этом квота будет расходоваться быстрее, включая недельные и 5-часовые лимиты. В сообществе идет обсуждение возможных причин ускорения: от использования новых аппаратных решений, до снижения размера батча для ускорения генерации на пользователя.
В самой подписке Claude Code модель не добавили, нужно платить самому за API. Однако модель достаточно быстро появилась во многих агрегаторах нейросетей. Для примера, BotHub, где уже можно протестировать модель бесплатно, воспользовавшись специальной ссылкой, которая даст 300 000 капсов (внутренней валюты).
Некоторые люди почти уверены, что с точки зрения железа ничего не менялось. Можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведет к быстрой генерации для каждого отдельного пользователя. Вместе с таким увеличением производительности, выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдает в среднем 6000 токенов в секунду на GPU, а при разгоне в 2.5 раза до 250 т/с - падает до 1000 токенов в секунду на GPU.
Таким образом количество токенов падает в 6 раз, цена растет, выручка и маржинальность не меняются.
Во многих реальных условиях полезность ИИ ограничивается не его качеством, а
Читать на habr.com