Исследователи говорят, что, возможно, они нашли способ преодолеть «стену данных»
Исследователи из Массачусетского технологического института представили новую платформу под названием SEAL, которая позволяет большим языковым моделям (LLM) генерировать собственные синтетические обучающие данные и совершенствоваться без посторонней помощи.
SEAL работает в два этапа. На первом этапе модель учится создавать эффективные «саморедактируемые» модели с помощью обучения с подкреплением. Эти саморедактируемые модели представляют собой инструкции на естественном языке, которые определяют новые обучающие данные и задают параметры оптимизации. На втором этапе система применяет эти инструкции и обновляет собственные веса с помощью машинного обучения.
Ключевой частью SEAL является алгоритм ReST^EM, который действует как фильтр: он сохраняет и усиливает только те правки, которые действительно улучшают производительность. Алгоритм собирает различные правки, проверяет, какие из них работают, а затем обучает модель, используя только успешные варианты. SEAL также использует адаптеры низкого ранга (LoRA) — метод, который позволяет быстро и легко обновлять модель без переобучения всей модели.
Исследователи протестировали SEAL в двух сценариях. В первом они использовали Qwen2.5-7B для понимания текста. Модель генерировала логические выводы на основе текста, а затем обучалась на собственных результатах.
SEAL достиг точности в 47%, превзойдя метод сравнения с 33,5%. Качество сгенерированных им данных даже превзошло качество GPT-4.1 от OpenAI, несмотря на то, что базовая модель была намного меньше.
Во втором тесте команда использовала Llama 3.2-1B для решения задачи на рассуждение. Здесь модель выбирала различные методы обработки данных и параметры обучения из предустановленного набора инструментов. С помощью SEAL модель достигла
Читать на habr.com