Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением
Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.
Существующие языковые модели часто испытывают трудности при создании очень длинных текстов: по мере увеличения объёма текста снижается связность, увеличивается количество повторений и структурных проблем. Большинство современных подходов решают эти проблемы с помощью контролируемой тонкой настройки (SFT) на искусственно созданных длинных текстах. Но создание таких наборов данных требует больших трудозатрат, а результаты часто не соответствуют требованиям как по стилю, так и по содержанию.
LongWriter-Zero, разработанный исследователями из Сингапурского университета технологий и дизайна и Университета Цинхуа, использует другой подход. Вместо использования готовых обучающих примеров модель полагается исключительно на обучение с подкреплением (RL) для создания связных текстов большой длины. Команда опирается на свои более ранние исследования LongWriter.
В основе обучения LongWriter-Zero лежат три специализированные модели вознаграждения, которые оценивают длину текста, качество написания и структуру. Исследователи также представили техническую инновацию под названием «усреднение преимуществ», которая балансирует вознаграждения по различным параметрам качества. Базовой моделью для LongWriter-Zero является Qwen2.5-32B.
Уникальной особенностью LongWriter-Zero является использование «наводящих вопросов». Перед тем как сгенерировать ответ, модель получает задание спланировать структуру и содержание своего ответа. По мнению команды разработчиков, этот шаг значительно повышает связность
Читать на habr.com
