



NVIDIA ускорила языковую модель в 4 раза: вышла Nemotron-Labs Diffusion
NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.
Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает несколько токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.
Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это полный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не считает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.
По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench модель работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у
Читать на habr.com