Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях
Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.
Возможность использовать SLM в сложных задачах логического мышления может быть очень полезной, поскольку предприятия ищут новые способы применения этих новых моделей в различных средах и приложениях.
Масштабирование во время тестирования (TTS) — это процесс предоставления LLM дополнительных вычислительных ресурсов во время логического вывода для повышения их производительности при выполнении различных задач. Ведущие модели логического вывода, такие как OpenAI o1 и DeepSeek-R1, используют «внутреннее TTS», то есть они обучены «думать» медленно, генерируя длинную последовательность токенов цепочки мыслей (CoT).
Альтернативным подходом является «внешняя TTS», при которой производительность модели повышается (как следует из названия) извне. Внешняя TTS подходит для перепрофилирования существующих моделей для решения задач рассуждения без их дальнейшей тонкой настройки. Внешняя настройка TTS обычно состоит из «модели политики», которая является основным LLM, генерирующим ответ, и модели вознаграждения процесса (PRM), которая оценивает ответы модели политики. Эти два компонента соединяются вместе с помощью метода выборки или поиска.
Самая простая настройка — «best-of-N», когда модель политики генерирует несколько ответов, а PRM выбирает один или несколько лучших ответов для составления окончательного ответа. Более продвинутые внешние методы TTS
Читать на habr.com