

Разобучаем языковые модели: как заставить ИИ забыть только определенные знания
Привет, Хабр! Сегодня я расскажу о новом подходе в области «разобучения» (unlearning) больших языковых моделей – методе ReLearn, который позволяет не просто «забывать» нежелательную информацию, но и сохранять высокое качество генерируемого текста. Давайте подробно разберем как это работает.
Современные LLM обучаются на огромных датасетах, содержащи приватные и авторские защищенные данные. Это создает серьезные юридические и этические проблемы – ведь модели могут запоминать чувствительную информацию, что противоречит требованиям GDPR и других нормативов.
Поэтому китайские исследователирешили разработать метод разобучения, способный эффективно удалять целевое знание, сохраняя при этом полезную не запрещенную информацию, и способный поддерживать высокое качество генерируемого текста.
Предлагаемый исследователями метод ReLearn генерирует синтетические варианты вопросов и ответов для датасета с информацией, подлежащей удалению. При этом используются четыре типа вариантов:
Простые варианты, позволяющие избежать переобучения на конкретных формулировках;
Контекстные, добавляющие ситуативные детали;
С вариантами шума, для повышения устойчивости к ошибкам;
Логические варианты, меняющие логику вопроса для дополнительного разнообразия.
Эти данные объединяются с оригинальными и общими данными, что позволяет избежать эффекта масштабного забывания.
А позитивная оптимизацияв отличие от традиционных методов обратной оптимизации, таких как Gradient Ascent (GA) и Negative Preference Optimization (NPO) помогает избежать «эффекта качель» (seesaw), когда вероятность целевого токена резко падает, что приводит к ухудшению языковой когерентности.
Позитивная оптимизация усиливает вероятность безопасных и корректных ответов вместо подавления целевых
Читать на habr.com