Об этом же в других СМИ

habr.com / 1 месяц назад

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

habr.com / 1 месяц назад

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

habr.com / 1 месяц назад

DeepSeek дообучили без Nvidia: 1000 Ascend 910C и 1500 итераций без сбоев

habr.com / 1 месяц назад

Несколько копий Claude Fable 5 устроили войну друг с другом: странные эпизоды из system card модели

habr.com / 1 месяц назад

ИИ Nemotron 3 Ultra от Nvidia доступен бесплатно на OpenRouter

Больше по теме

27.05.2026 - 07:10 / habr.com

NVIDIA ускорила языковую модель в 4 раза: вышла Nemotron-Labs Diffusion

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.

Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает несколько токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.

Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это полный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не считает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.

По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench модель работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у

экономика Nvidia самит google крипто токен gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Память подорожала в 6 раз, а Morgan Stanley предупреждает о новой угрозе — чипфляции habr.com / 1 месяц назад

ИИ Google Gemma 4 12B запускается на ноутбуке с 16 ГБ и почти догоняет модель вдвое крупнее habr.com / 1 месяц назад

ИИ пишет код, чтобы искать в разы эффективнее: новая технология Perplexity habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 01:01

медицина люди наука общество депрессия Не зрение и не слух: шестое чувство, о котором многие даже не слышали

Это чувство играет центральную роль в способности человека определять, находится ли его организм в состоянии баланса.

17.07 / 23:26

продукты люди здоровье общество человек Почему не стоит полностью отказываться от соли - ответ врачей

Соль считают вредной, однако ее полное исключение из рациона может привести к неприятным последствиям для здоровья и самочувствия.

17.07 / 22:52

самит Знаменитости курс nintendo мода и стиль Casio выпустила лимитированные G-Shock в стиле культовой Mother 3: часы получили необычный дизайн и эксклюзивный способ продажи

Компания Casio официально представила новую лимитированную версию часов G-Shock DW-5600, созданную совместно с культовой игровой франшизой Mother от Nintendo. Новинка посвящена 20-летию игры Mother 3 и получила яркое оформление, вдохновленное одной из самых запоминающихся сцен проекта.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

Лента новостей

На главную страницу