



Французский стартап представил линейку Mistral 3: 675 миллиардов параметров в open source
Компания Mistral AI выпустила новое поколение своих моделей — Mistral 3. В релиз вошли три небольших плотных модели (3B, 8B и 14B), а также флагманская Mistral Large 3 — разреженная Mixture-of-Experts-архитектура с 41B активных и 675B общих параметров. Все модели распространяются под Apache 2.0, что делает Mistral 3 одним из крупнейших полностью открытых релизов в сегменте frontier-класса.
Large 3 — первый MoE-модельный релиз Mistral со времён Mixtral. Она обучалась с нуля на 3000 GPU NVIDIA H200 и демонстрирует паритет с лучшими инструкционно-натренированными open-weight-моделями. Новинка поддерживает понимание изображений и показывает лидирующие результаты в многоязычных диалогах, особенно за пределами англо-китайских датасетов, где большинство конкурентов традиционно сильны.
На LMArena модель дебютировала на втором месте среди не-reasoning open-source-моделей.
Для запуска Large 3 в продакшене Mistral совместно с NVIDIA, Red Hat и vLLM выложила оптимизированный чекпойнт в формате NVFP4. Он позволяет работать с моделью на одной 8×A100/8×H100-ноде или на Blackwell NVL72, используя низкопороговый inference-стек TensorRT-LLM, SGLang и vLLM. NVIDIA внесла собственные ядра для Blackwell-архитектуры, оптимизировала MoE-вызовы и добавила поддержку раздельного prefill/decode-режима и спекулятивного декодирования.
Младшие модели — Ministral 3B, 8B и 14B — нацелены на edge-устройства и автономные развертывания. Для каждой доступны три варианта: base, instruct и reasoning. Все поддерживают мультимодальность и работают более экономно на уровне количества токенов, что критично для реальных производственных сценариев.
Ориентация на эффективность заметна и в reasoning-моделях: Ministral 14B достигает 85% на AIME’25 — результат, который
Читать на habr.com