Xiaomi представляет MiMo-7B — компактную модель для решения математических задач и задач по кодированию
С новой моделью MiMo-7B Xiaomi стремится продемонстрировать, что математические и программные задачи могут эффективно решаться относительно небольшими языковыми моделями. По словам компании, результаты должны соответствовать или даже превосходить результаты, достигнутые более крупными конкурентами.
В то время как многие современные модели рассуждений с открытым исходным кодом используют 32 миллиарда параметров, Xiaomi полагается на архитектуру из 7B параметров, стремясь максимизировать ее эффективность с помощью специально разработанных стратегий предварительного и последующего обучения.
Исследовательская группа сообщает, что MiMo-7B был предварительно обучен примерно на 25 триллионах токенов с целью раннего ознакомления модели с шаблонами рассуждений. Для поддержки этого были разработаны новые инструменты извлечения для математических формул и кода, охватывающие такие форматы, как HTML и PDF. Также использовался трехэтапный процесс смешивания данных, подчеркивающий синтетически сгенерированные задачи.
В ходе финальной фазы предварительной подготовки доля математических и кодовых данных была увеличена примерно до 70 процентов. Длина контекста была увеличена до 32 768 токенов, чтобы позволить модели обрабатывать более сложные, расширенные рассуждения.
Другим элементом процесса обучения является многотокенное прогнозирование (MTP), в котором модель пытается предвидеть несколько последующих токенов одновременно. Эта техника предназначена для повышения точности и ускорения вывода.
После предварительной подготовки две версии модели были дополнительно улучшены с использованием обучения с подкреплением (RL): MiMo-7B-RL-Zero была обучена непосредственно на основе базовой модели, в то время как MiMo-7B-RL была разработана на основе
Читать на habr.com