Фреймворк BeyondWeb (Datology AI) перестраивает веб-документы для лучшего обучения моделей
Сегодня бюджеты на обучение больших языковых моделей измеряются уже триллионами токенов, а достойные веб‑данные становятся всё труднее добыть. В Datology AI называют эту «стену данных» одним из главных вызовов и предлагают BeyondWeb как решение. Система заново структурирует уже существующие веб‑документы, делая их более ёмкими по содержанию, придаёт текстам обучающий тон и перестраивает их так, чтобы они лучше подходили для тренировок.
По данным Datology AI, BeyondWeb повышает точность на 5,1 п. п. в моделях с 8 млрд параметров по сравнению с Cosmopedia от Hugging Face и на 2,6 п. п. по сравнению с датасетом Nemotron‑CC от Nvidia.
Исследование показало и другое: BeyondWeb обучается значительно быстрее — в 7,7 раза быстрее, чем открытые веб‑данные, и в 2,7 раза быстрее, чем Nemotron Synthetic. В одном из тестов модель с 3 млрд параметров, обученная на BeyondWeb, превзошла модель с 8 млрд параметров, тренировавшуюся на Cosmopedia при одинаковом объёме токенов.
Учёные сосредоточились на семи ключевых вопросах, связанных с генерацией синтетических данных. Один из главных выводов: разнообразие — залог устойчивого прогресса. Стандартные методы помогают на ранних этапах обучения, но их однообразие в стиле ведёт к снижению отдачи.
Ещё одна находка: разговорный стиль в веб‑данных представлен ничтожной долей — менее 2,7%. При этом именно чат сегодня является основным сценарием применения LLM. Добавление диалоговых данных помогает, но эффект быстро выходит на плато.
При сравнении моделей разных размеров исследователи обнаружили, что даже небольшие языковые модели способны порождать качественные синтетические данные. Переход от 1 до 3 млрд параметров увеличил качество данных на 1,5 п. п., однако дальнейший рост до 8 млрд уже почти не дал
Читать на habr.com