




Новый ИИ программирования MiniMax-M1 бьет рекорды DeepSeek R1 — 1 млн токенов, всего $535 тыс. за обучение
Китайский стартап искусственного интеллекта MiniMax известен реалистичной генеративной моделью видео Hailuo. Его LLM для программирования MiniMax-M1 свободна для коммерческого использования.
MiniMax-M1 с открытым исходным кодом распространяется с лицензией Apache 2.0. Это означает, что компании могут использовать его для коммерческих приложений и модифицировать по своему вкусу без ограничений или платы. Модель открытого веса доступна на Hugging Face и в Microsoft GitHub.
MiniMax-M1 отличается контекстным окном с 1 млн входных токенов и до 80 тыс. токенов на выходе, что делает одной из самых широких моделей для задач контекстного мышления. Для сравнения, GPT-4o от OpenAI имеет контекстное окно всего 128 000 токенов. Этого достаточно для обмена информацией объемом примерно как литературный роман за одно взаимодействие. С 1 млн токенов MiniMax-M1 может обменяться информацией объемом небольшой коллекции книг. Google Gemini 2.5 Pro также предлагает верхний предел контекста токенов в 1 млн, в разработке находится окно на 2 млн.
Согласно техническому отчету, MiniMax-M1 требует только 25% операций FLOP, необходимых DeepSeek R1 при генерации 100 000 токенов. Модель выпускается в вариантах MiniMax-M1-40k и MiniMax-M1-80k, с разным размером выхода. Архитектура построена на основе предыдущей платформы, MiniMax-Text-01 и включает 456 миллиардов параметров, из которых 45,9 миллиарда активны для одного токена.
Обучение модели M1 осуществлялось с помощью инновационной и высокоэффективной методики. Это гибридная смесь экспертов (MoE) с механизмом молниеносного внимания, разработанным для уменьшения затрат на вывод. Стоимость обучения составила всего $534 700. Такая эффективность объясняется специализированным алгоритмом CISPO, который
Читать на itc.ua