MiniMax выпустила M3: открытая мультимодальная модель с контекстом 1M токенов
Китайская лаборатория MiniMax представила M3 — открытую мультимодальную модель с контекстным окном до миллиона токенов, ориентированную на программирование и автономные агентные задачи. API и собственная агентная среда MiniMax Code доступны уже сейчас, а веса и технический отчет MiniMax обещает выложить на HuggingFace и GitHub в течение примерно десяти дней. Модель обрабатывает текст и изображения как единое целое — мультимодальность, по словам разработчиков, заложена в нее с самого начала обучения, а не добавлена поверх готовой языковой основы.
На бенчмарках M3 показывает результаты, близкие к топовым закрытым моделям. На SWE-Bench Pro, который проверяет умение решать реальные задачи из GitHub-репозиториев, модель набирает 59,0%, на Terminal Bench 2.1 (выполнение команд в терминале) — 66,0%. Самый заметный результат — на BrowseComp, тесте на автономный веб-поиск и сбор информации: здесь M3 набирает 83,5% и опережает Claude Opus 4.7 с его 79,3%. В наборе агентных и инструментальных бенчмарков вроде MCP Atlas (74,2%) и BankerToolBench (76,1%) M3 идет вровень с лидерами, хотя на части тестов — например, на KernelBench Hard — все еще уступает закрытым конкурентам.
Длинный контекст в M3 обеспечивает собственная архитектура внимания MiniMax Sparse Attention (MSA): API поддерживает окно до 1 миллиона токенов с гарантированным минимумом в 512 тысяч. Такой объем нужен прежде всего для длительных агентных сессий, работы с большими кодовыми базами и анализа длинных видео. Цена при этом очень демократичная — 0,60 доллара за миллион входных токенов и 2,40 доллара за миллион выходных в режиме до 512 тысяч; на стандартное использование первые семь дней действует скидка 50%.
В техническом отчете MiniMax приводит несколько примеров работы
Читать на habr.com