

Alibaba vs Google: Qwen3.6-35B-A3B обходит Gemma 4-31B в кодинге, эрудиции и математике
Опенсорсная модель Qwen3.6-35B-A3B, которая имеет архитектуру mixture-of-experts и была опубликована Alibaba 15 апреля, уверенно обошла недавнюю новинку от Google, Gemma 4-31B, в ключевых бенчмарках на агентное программирование и математическую логику.
На данный момент исходники и веса модели опубликованы на профильных площадках вроде Hugging Face и ModelScope с лицензией Apache 2.0.
Главная фишка Qwen3.6-35B-A3B кроется в её невероятной эффективности: во время каждого отдельного этапа генерации из 35 млрд параметров модель активирует всего 3. Такой подход радикально снижает требования к вычислительным мощностям.
Инженеры Alibaba приложили наглядные результаты тестирования. Если столкнуть Qwen3.6 и Gemma 4-31B в испытаниях для ИИ-агентов, китайская модель забирает лидерство буквально в каждом пункте:
На SWE-bench Verified (проверка способности ИИ самостоятельно фиксить реальные баги из GitHub-репозиториев) Qwen3.6 выбивает 73,4 балла, против скромных 52,0 у Gemma 4.
В тесте Terminal-Bench 2.0, заточенном на работу в терминале и автономное выполнение консольных задач, счёт составляет 51,5 против 42,9 в пользу новинки от Alibaba.
Помимо написания кода, Qwen3.6-35B-A3B неплохо прокачалась в сложных “мыслительных” дисциплинах. В строгом аспирантском тесте на эрудицию GPQA модель набирает 86 баллов (против 84,3 у Gemma), а в математическом турнире AIME26 доходит до отметки 92,7 (против 89,2). Более того, по заявлениям самих разработчиков, в задачах, связанных с распознаванием и анализом изображений и видео, нейросеть вполне уверенно держится на одном уровне с признанным лидером в этом сегменте – Claude Sonnet 4.5.
Особенностью архитектуры является поддержка двух режимов работы: полноценного “думающего” (когда ИИ выстраивает длинную
Читать на habr.com
