Rednote выпускает свою первую языковую модель с открытым исходным кодом и архитектурой Mixture-of-Experts
Компания Rednote, занимающаяся социальными сетями, выпустила свою первую большую языковую модель с открытым исходным кодом. Система Mixture-of-Experts (MoE), получившая название dots.llm1, предназначена для того, чтобы соответствовать производительности конкурирующих моделей при значительно меньшей стоимости.
Согласно техническому отчёту Rednote, в dots.llm1 используется 14 миллиардов активных параметров из 142 миллиардов в общей сложности. Архитектура MoE делит модель на 128 специализированных экспертных модулей, но для каждого токена активируются только шесть лучших модулей, а также два модуля, которые работают постоянно. Такой выборочный подход позволяет экономить вычислительные ресурсы без ущерба для качества.
Rednote заявляет о значительном повышении эффективности. Для обучения dots.llm1 на одном триллионе токенов потребовалось всего 130 000 часов работы графического процессора по сравнению с 340 000 часами для Qwen2.5-72B. В целом, полный процесс предварительного обучения для dots.llm1 занял 1,46 миллиона часов работы графического процессора, в то время как для Qwen2.5-72B потребовалось 6,12 миллиона часов — примерно в четыре раза больше. Несмотря на это, Rednote утверждает, что модели дают схожие результаты.
Тесты показывают, что dots.llm1 особенно хорошо справляется с задачами на китайском языке. В таких тестах, как C-Eval (который измеряет уровень владения китайским языком) и CMMLU (китайский вариант MMLU), модель превосходит Qwen2.5-72B и Deepseek-V3.
По результатам тестов на английском языке dots.llm1 немного отстаёт от лидеров. По результатам MMLU и более сложного MMLU-Pro, которые проверяют общие знания и способность рассуждать, модель немного отстаёт от Qwen2.5-72B.
Что касается математики, то dots.llm1
Читать на habr.com