DeepSeek выложил в open source DSpark — модуль, ускоряющий ответы ИИ почти вдвое
Компания DeepSeek совместно с Пекинским университетом выпустила DSpark — модуль, который ускоряет выдачу ответов нейросети, не меняя саму модель. На боевых серверах превью-версий DeepSeek-V4-Flash и V4-Pro скорость генерации для каждого пользователя выросла до +85%. Код и технический отчет компания опубликовала на GitHub.
Технология относится к классу спекулятивного декодирования и ускоряет ответы без потери качества — итоговый текст остается математически идентичным обычной генерации. Прирост измеряли относительно прежнего рабочего варианта под названием MTP-1.
Под капотом — две идеи. Сама схема спекулятивного декодирования устроена так: легкая модель-черновик забегает вперед и быстро набрасывает сразу несколько токенов (слов или их частей), а большая модель проверяет весь блок за один проход — это дешевле, чем генерировать те же токены по одному. Совпавший отрезок с начала блока принимается целиком, и пользователь получает несколько слов за время одного шага. Загвоздка — в качестве черновика: если набрасывать токены блока разом и независимо друг от друга, они плохо стыкуются, и модель легко склеит начало одной фразы с концом другой. Чем дальше от начала блока, тем больше такого брака и тем больше токенов в итоге отвергается. DeepSeek оставил быстрый параллельный черновик, но добавил к нему крошечный последовательный модуль, который перед каждым следующим токеном оглядывается на уже выбранные. Склейка перестает разваливаться, а скорость черновика почти не страдает.
Вторая идея — не проверять лишнего. Проверка блока не бесплатна: под высокой нагрузкой каждый лишний токен занимает в очереди место, которое могло бы достаться другому пользователю, а токены в хвосте блока все равно чаще отвергаются. Поэтому DSpark заранее
Читать на habr.com

