
Huginn: языковая модель, которая может углублять свои мыслительные процессы
Исследовательская группа из Института ELLIS в Тюбингене, Университета Мэриленда и Ливерморской национальной лаборатории имени Лоуренса разработала языковую модель под названием «Huginn», которая может углублять свои мыслительные процессы с помощью рекурсивной архитектуры.
В отличие от обычных моделей логического мышления, таких как o3-mini от OpenAI, которые генерируют цепочки рассуждений с помощью логических токенов, Huginn не требует специального обучения и рассуждает в скрытом пространстве своей нейронной сети, прежде чем выдать результат.
Модель была обучена на суперкомпьютере Frontier с использованием 4096 графических процессоров AMD MI250X — это один из крупнейших обучающих прогонов, когда-либо проводившихся на кластере AMD. Концепция обучения была новой, но в основе своей простой: в отличие от типичных языковых моделей, Huginn обучался с переменным количеством вычислительных итераций.
Для каждого прохода система случайным образом определяла, сколько раз нужно повторить центральный вычислительный блок — от одного до 64 раз. Специальное распределение этого случайного числа гарантировало, что, хотя модель в основном обучалась с меньшим количеством повторений, иногда она выполняла множество итераций.
Тестирование показывает, что модель особенно хорошо справляется с математическими задачами и задачами по программированию. В таких тестах, как GSM8k и MATH, она превосходит несколько протестированных моделей с открытым исходным кодом, у которых в два раза больше параметров и обучающих данных.
Исследователи задокументировали несколько новых возможностей: без специального обучения система может регулировать глубину вычислений в зависимости от сложности задачи и выстраивать цепочки рассуждений в своём скрытом пространстве.
Анализ,
Читать на habr.com
