



Исследование Hugging Face: Как малые языковые модели превосходят гигантов благодаря масштабированию
В новом исследовании Hugging Face исследователи продемонстрировали, как можно настроить малые языковые модели SLM так, чтобы они превосходили гораздо более крупные модели. Их результаты показывают, что модель Llama 3 с параметрами 3B может превзойти версию модели 70B в сложных математических задачах. Компания Hugging Face полностью задокументировала весь процесс и предоставила дорожную карту для предприятий, желающих появится больше инструментов и методов, которые помогут предприятиям максимально эффективно использовать свои ресурсы.
Основная идея, лежащая в основе таких моделей, как o1, заключается в масштабировании вычислений во время теста, что фактически означает использование большего количества циклов вычислений во время вывода для тестирования и проверки различных ответов и путей рассуждений перед выдачей окончательного ответа. Масштабирование вычислений во время теста особенно полезно, когда недостаточно памяти для запуска большой модели.
Поскольку o1 является частной моделью, а OpenAI умалчивает о ее внутренних механизмах, исследователи строят предположения о том, как она работает и пытаются провести обратную разработку процесса. Уже существует несколько открытых альтернатив o1 .
Работа Hugging Face основана на исследовании DeepMind, опубликованном в августе , в котором исследуются компромиссы между временем вывода и предварительным вычислением. Исследование предоставляет комплексные рекомендации по балансировке обучения и вычисления вывода для получения наилучших результатов при фиксированном бюджете. Помимо использования дополнительного времени для вычисления вывода, успех метода зависит от двух ключевых компонентов: модели вознаграждения, которая оценивает ответы SLM и алгоритма поиска, который оптимизирует
Читать на habr.com