Новый метод адаптирует языковые модели без обучения
Исследователи из Sakana AI представили метод Text-to-LoRA (T2L), который адаптирует большие языковые модели к новым задачам, используя только простое текстовое описание — никаких дополнительных обучающих данных не требуется.
Большие языковые модели обычно специализируются с помощью таких методов, как LoRA (адаптация с низким рангом). LoRA работает путём вставки небольших матриц с низким рангом в определённые слои модели, что делает процесс адаптации гораздо более эффективным, чем полная тонкая настройка. Вместо обновления миллиардов параметров требуется настроить всего несколько миллионов.
Тем не менее, для каждой новой задачи обычно требуются собственные обучающие данные и тщательно подобранные гиперпараметры, что делает процесс трудоёмким и ресурсозатратным. Text-to-LoRA автоматизирует этот этап. Система использует гиперсеть, обученную на 479 задачах из набора данных Super Natural Instructions. Научившись связывать описания задач с правильными настройками LoRA, T2L может генерировать веса LoRA для новой задачи всего за один шаг — даже если она никогда не выполнялась ранее.
Компания Sakana AI разработала три варианта T2L: T2L-L (55 миллионов параметров) генерирует сразу обе матрицы LoRA, T2L-M (34 миллиона параметров) использует общий выходной слой для обеих матриц, а T2L-S (5 миллионов параметров) генерирует только отдельные ранги матриц.
Команда сравнила два подхода к обучению T2L: обучение реконструкции, при котором система учится воссоздавать существующие адаптеры LoRA, и контролируемую тонкую настройку (SFT), при которой она обучается непосредственно на целевых задачах.
Модели SFT превзошли модели, основанные на реконструкции, в среднем достигнув 66,3% от эталонного показателя по сравнению с 61,8%. Исследователи
Читать на habr.com