



DeepSeek-V4: Тихий гигант
Привет, Хабр! 👋 Сегодня разбираем, что принесла новая версия: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?
Параметр
DeepSeek-V4 Flash
DeepSeek-V4 Pro
Общее количество параметров
~400 млрд
~1.6 трлн
Активные параметры на токен
~12 млрд
~49 млрд
Экспертов на слой (MoE)
96
384
Активных экспертов на токен
3
6
Контекстное окно
1 000 000 токенов
1 000 000 токенов
KV Cache (при 1M контексте)
~8% от V3.2
~10% от V3.2
Вычислительные затраты (FLOPs)
~22% от V3.2
~27% от V3.2
Модальности
Текст
Текст
Лицензия
MIT
MIT
Цена API (вход/выход)
$0.14 / $0.28 за 1M токенов
$1.74 / $3.48 за 1M токенов
Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется лишь 6 из них.
Входной токен
↓
[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов
↓
Параллельная обработка в выбранных экспертах
↓
Агрегация результатов → выходной токен
Что это даёт:
Знания модели масштаба триллиона параметров
Стоимость инференса как у модели на ~50 млрд параметров
Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии
Проблема длинных контекстов известна: квадратичная сложность внимания убивает производительность. DeepSeek решила её через гибридный механизм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:
Компонент
За что отвечает
CSA (Clustered Sparse Attention)
Группировка токенов в семантические кластеры
HCA (Hierarchical Context Aggregation)
Иерархическое сжатие дальних зависимостей
Локальное окно
Точная работа с ближайшим контекстом
Результат: при работе с 1 000 000 токенов:
Потребление памяти (KV Cache) — всего 10% от уровня V3.2
Вычислительные затраты
Читать на habr.com
