Instella Math: языковая модель AMD с поддержкой рассуждений
AMD представила Instella Math — языковую модель, ориентированную на решение задач, требующих сложных логических построений. Отмечается, что это первая модель, в которой применено обучение с подкреплением на основе длинных цепочек рассуждений, и при этом — целиком на графических процессорах AMD.
В основе проекта лежит Instella 3B Instruct, чьи возможности расширили многоэтапным циклом обучения: двумя стадиями контролируемой донастройки и тремя этапами обучения с подкреплением по методике VERL. Всё это выполнялось на ускорителях AMD Instinct MI300X.
Instella Math — первая языковая модель AMD для рассуждений, с объёмом 3 млрд параметров, обученная на кластере из 32 ускорителей AMD Instinct MI300X. Instella Math — полностью опенсорсная модель: открыты её архитектура, код обучения, веса и наборы данных. Базовая модель Instella 3B Instruct также выложена в открытом доступе, включая результаты донастройки для задач рассуждения.
Модель построена на программном стеке AMD ROCm и использует эффективные распределённые методы обучения, включая обучение с подкреплением, запущенное на четырёх узлах MI300X (по 8 GPU в каждом).
Наследуя архитектуру Instella 3B Instruct, Instella Math оптимизирована для многошагового логического анализа, решения математических задач и работы с цепочками рассуждений. Процесс обучения включает две стадии контролируемой донастройки и три этапа обучения с подкреплением по алгоритму GRPO.
Для Instella Math применили двухэтапную схему донастройки, чтобы постепенно развивать у Instella 3B Instruct способность к рассуждению. На первом этапе проводилась инструкционная донастройка с охватом математической тематики. На втором — модель обучали выдавать глубокий анализ и чётко структурированные логические шаги, необходимые
Читать на habr.com
