



Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной
Google тестирует новый тип языковой модели под названием Gemini Diffusion — экспериментальную систему, которая генерирует текст с помощью методов диффузии вместо традиционного пословного прогнозирования.
Вместо того чтобы генерировать текст по одному слову за раз, как это делают традиционные языковые модели, Gemini Diffusion заимствует технику из области создания изображений: устранение шума в несколько этапов.
Система начинает со случайного шума и постепенно преобразует его в полноценные фрагменты текста, что позволяет вносить исправления в процессе и лучше контролировать результат. В DeepMind утверждают, что такой подход приводит к более последовательному и логически связанному результату, что делает его особенно эффективным для таких задач, как генерация кода и редактирование текста, где ключевыми являются точность, связность и итеративность.
Gemini Diffusion генерирует целые фрагменты текста одновременно — и делает это намного быстрее, чем традиционные авторегрессионные модели, которые работают слева направо. DeepMind сообщает о скорости 1479 токенов в секунду (без учёта накладных расходов) с начальной задержкой всего 0,84 секунды.
Брендан О’Донохью, исследователь из DeepMind, говорит, что модель может обрабатывать до 2000 токенов в секунду при выполнении задач по программированию, даже с учётом таких затрат, как токенизация, предварительное заполнение и проверки безопасности.
Ориол Виньялс, вице-президент по исследованиям, руководитель отдела глубокого обучения в Google DeepMind и соруководитель проекта Gemini, назвал выпуск Gemini Diffusion личной вехой в своей карьере.
«Я давно мечтал избавиться от необходимости генерировать текст «слева направо», — сказал он. Во время демонстрации модель работала так быстро, что им
Читать на habr.com