Вышли младшие модели Qwen-3.5 — и 9B-версия обходит ИИ в 13 раз крупнее
Команда Qwen (Alibaba Cloud) опубликовала пять компактных моделей серии Qwen3.5: на 9B, 4B, 2B и 0.8B параметров — все в dense-формате и с открытыми весами под Apache 2.0. Это финальная часть линейки, которую Alibaba выкатывала тремя волнами: флагман на 397B-A17B вышел 16 февраля, средние модели (122B-A10B, 35B-A3B, 27B) — 24 февраля, а теперь — компактные версии для локального запуска. Помимо Hugging Face, модели доступны на ModelScope и Ollama. Для запуска 9B-версии достаточно одной команды: ollama run qwen3.5:9b.
Главная интрига — в бенчмарках 9B-модели. По данным Qwen, она набирает 82.5 на MMLU-Pro — против 80.8 у GPT-OSS-120B и 80.9 у Qwen3-30B-A3B, модели с тройным количеством параметров. На GPQA Diamond разрыв еще заметнее: 81.7 против 73.4 у Qwen3-30B-A3B. В агентных задачах 9B-версия показывает 66.1 на BFCL-V4 (tool use) и 79.1 на TAU2-Bench — результаты, которые еще полгода назад были недоступны моделям даже втрое крупнее.
Все модели построены на гибридной архитектуре Gated DeltaNet + Gated Attention в соотношении 3:1: три слоя с линейным вниманием на каждый слой полного квадратичного. Это позволяет нативно поддерживать контекст в 262 тысячи токенов с расширением до миллиона — в модели размером 9 млрд параметров. Каждая модель мультимодальна из коробки: единый пайплайн текст + изображения + видео, без отдельных VL-версий. Поддержка языков расширена с 119 до 201.
Даже 4B-модель выдает числа, которые заставляют перечитать таблицу дважды: 79.1 на MMLU-Pro (на уровне GPT-OSS-120B), 76.2 на GPQA Diamond и 85.1 на MathVista — при этом для запуска должно хватить видеокарты уровня RTX 3060/4060. Самая маленькая, 0.8B, предназначена для встраиваемых устройств и edge-сценариев.
P.S. Поддержать меня можно подпиской на канал
Читать на habr.com