Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей
Привет, Хабр! В этой статье расскажу о новом подходе - больших языковых диффузионных моделях (LLaDA).
Большие языковые диффузионные модели - альтернатива традиционным большим языковым моделям, которые генерируют текст токен за токеном. Метод диффузии сначала "зашумляет" текст, а затем модель обучается восстанавливать его целиком. Такие модели можно также использовать и для создания новых белков с заданными свойствами. Давайте подробнее разберем, как все это работает.
Большинство современных языковых моделей работают по принципу «предскажи следующий токен», то есть генерируют текст поэтапно. Но недавно китайские исследователи предложили другой подход — использовать диффузию в LLM. Вместо пошагового предсказания модель сначала «зашумляет» текст, а затем обучается восстанавливать его целиком.
Процесс обучения: Исходный текст постепенно "маскируется" (заменяется специальными токенами), и модель учится по шагам возвращать исходные слова. Таким образом, она изучает не только прямую последовательность слов, но и взаимосвязи между ними со всех сторон.
Дообучение: После базового обучения модель дообучали на 4,5 млн пар «вопрос–ответ», чтобы она лучше понимала инструкции и могла вести осмысленные диалоги.
Результаты: Модель LLaDA с 8 млрд параметров показывает результаты, сравнимые с лучшими существующими языковыми моделями в "своей весовой категории". Например, на математической задаче GSM8K точность достигала 70,7%, а задачи, где требуется генерировать текст задом наперед («обратное рассуждение»), модель справлялась лучше, чем GPT‑4.
Диффузионный подход позволяет:
Генерировать текст параллельно, а не по токенам, что может ускорить работу LLM;
Улучшить качество вывода на сложных задачах, например, там, где нужно учитывать контекст с
Читать на habr.com
