Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1
Новое семейство Qwen3 представлено в виде Dense: 0.6B,1.7B, 4B, 8B, 14B, 32B, и в виде MoE: 30B-A3B, 235B-A22B. Каждая модель поддерживать гибридный режим работы: обычный и размышление. Поддерживает 119 языков и диалектов.
Маленькие модели 0.6B подойдут для speculative decoding в llama.cpp и производных, вроде LM Studio, позволяя ускорять выполнение больших моделей за счет предсказания уже очевидных токенов, где не требуется полноценная работа большой модели. Таким образом можно получить ускорение в среднем 20-50% без изменения качества ответа, но всё зависит от множества факторов, включая язык токенов.
MoE модели записываются в формате Qwen3-30B-A3B и Qwen3-235B-A22B, что означает, что модель имеет всего 30B или 235B параметров, из который активных 3B или 22B. Активные параметры в MoE означают, что на вычисление каждого следующего токена будет задействована не вся модель, а лишь её часть, что сильно снижает требование к вычислительным ресурсам.
Главное преимущество MoE моделей это кратное снижение требований к железу, запускать можно даже с ssd (ключ --ubatch-size 1, чтобы обрабатывать запросы pp партиями 1 за раз, вместо 512, иначе ssd станет узким местом), можно выгрузить общие слоя в vram, получая приличное ускорение на одной GPU (ключ -ot exps=CPU или --override-tensor ".ffn_.*_exps.=CPU"), или использовать форки ik_llama и KTransformers, позволяющие использовать новые оптимизации, такие как -mla и -fmoe.
По бенчмаркам можно увидеть, что модель 30B-A3B превосходит Gemma3-27B и DeepSeek V3 старого образца (версия DeepSeek V3-0324 сильно превосходит обычный V3).
Qwen3-30B-A3B занимает почти тот же размер, что и Gemma3-27B, но при этом, за счет всего 3B активных параметров, работает быстрее, что позволяет её запустить даже
Читать на habr.com