




Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку
Google DeepMind представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от классической авторегрессии в пользу дискретной диффузии. Вместо того чтобы выдавать токены по одному слева направо, модель работает как генераторы изображений: начинает со случайного "шума" из токенов-заглушек и за несколько проходов уточняет целый блок текста размером до 256 токенов сразу. Веса уже доступны на Hugging Face под лицензией Apache 2.0.
В основе лежит архитектура Gemma 4 26B A4B — модель со смесью экспертов на 26 миллиардов параметров, из которых при выводе активны лишь 3,8 миллиарда. Благодаря этому квантованная версия умещается в 18 ГБ видеопамяти и запускается на потребительских видеокартах. Главный выигрыш — скорость: Google заявляет до 4 раз более быструю генерацию по сравнению с обычными авторегрессионными моделями, свыше 700 токенов в секунду на GeForce RTX 5090 и более 1000 токенов в секунду на одном ускорителе H100. Дело в том, что при локальном запуске для одного пользователя классические модели упираются в пропускную способность памяти, а диффузионный подход смещает узкое место в сторону вычислений, которые у современных видеокарт в избытке.
Ключевой механизм Google называет Uniform State Diffusion: модель делает несколько проходов по "холсту" из случайных токенов, на каждом фиксирует позиции, в которых уверена, и использует их как контекст для соседних. Для длинных ответов применяется блочно-авторегрессионная схема: полностью "расшумленный" блок из 256 токенов записывается в KV-кеш, после чего модель начинает новый холст с учетом всей предыдущей истории. Двунаправленное внимание внутри блока дает побочный эффект, недоступный обычным моделям, — самокоррекцию: DiffusionGemma "видит" весь
Читать на habr.com