Тренд на компактные модели: Meta* запускает семейство моделей рассуждений MobileLLM-R1 для ПК и мобильных устройств
Долгое время мощь ИИ-моделей напрямую связывалась с их размером: число параметров росло до сотен миллиардов и даже триллионов. Но слишком большие модели создают очевидные проблемы для компаний: отсутствие контроля над системой, зависимость от сторонних облаков и непредсказуемые расходы.
На фоне этого набирает обороты противоположный тренд — малые языковые модели (SLM), которые можно запускать прямо на ПК и смартфонах.
Последний и самый яркий пример — Meta* MobileLLM-R1, семейство моделей с менее чем миллиардом параметров, специализирующихся на решении задач с рассуждениями. Их появление подтверждает общий поворот индустрии от принципа «больше значит лучше» к ставке на компактные и эффективные модели.
MobileLLM-R1 от Meta* — это семейство reasoning-моделей с размерами 140M, 360M и 950M параметров, специально предназначенных для математики, программирования и научных задач (они не подходят для общих чат-приложений).
Эффективность достигается за счет архитектурных решений, заложенных ещё в оригинальной линейке MobileLLM, оптимизированной для моделей до 1 млрд параметров. Например, используется архитектура deep-and-thin (глубже слоев при меньших эмбеддингах) и прием grouped-query attention (разделяемые веса внимания для сокращения числа параметров). В сочетании с очень эффективным процессом обучения это позволяет запускать сложные вычисления даже на ограниченных устройствах.
Для обучения использовалось около 5 трлн токенов (для сравнения: у других моделей сопоставимого размера — десятки триллионов), включая дистиллированные данные из Llama-3.1-8B-Instruct, что позволило перенести развитые способности к рассуждению без гигантских затрат на обучение.
Модель на 950M параметров немного превосходит Alibaba Qwen3-0.6B на бенчмарке MATH
Читать на habr.com