Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня
Китайская компания Deepseek только что выпустила свою самую мощную языковую модель. Первые тесты показывают, что новая модель V3 может конкурировать с ведущими проприетарными моделями в отрасли и демонстрирует значительное улучшение в задачах логического мышления.
Модель, доступная на Github, использует архитектуру Mixture-of-Experts (MoE) с общим количеством параметров 671 миллиард, из которых 37 миллиардов активируются для каждого токена. Это значительное увеличение по сравнению с V2, которая имеет 236 миллиардов параметров, из которых 21 миллиард активен во время вывода.
Обучение также было более обширным, обработав 14.8 триллионов токенов — почти вдвое больше данных, чем в V2. По данным Deepseek, полное обучение заняло 2.788 миллиона часов на H800 GPU и стоило примерно $5.576 миллионов.
Особенно впечатляет то, что они достигли этого результата, используя кластер всего из 2,000 GPU — это лишь малая часть из 100,000 графических карт, которые компании, такие как xAI и OpenAI, обычно используют для обучения AI. Deepseek объясняет эту эффективность оптимизированным совместным проектированием алгоритмов, фреймворков и аппаратного обеспечения. Одним из самых больших улучшений V3 является его скорость — он может обрабатывать 60 токенов в секунду, что в три раза быстрее, чем его предшественник.
Команда сосредоточилась на улучшении мышления, используя специальный процесс пост-обучения, который использовал данные из их модели "Deepseek-R1", специально разработанной для сложных задач логического мышления. При тестировании на фоне как открытых, так и проприетарных моделей он достиг наивысших результатов в трех из шести основных бенчмарков LLM, с особенно сильными показателями на бенчмарке MATH 500 (90.2%) и тестах программирования,
Читать на habr.com

