

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5
Позавчера DeepSeek загадочно и молчаливо залили новую модель на HuggingFace, даже не написав ничего ни в блоге, ни в README файле.
Сегодня, наконец, вышел анонс с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели). Давайте разбираться, что в этот раз нам подогнали китайские исследователи.
В первую очередь, давайте посмотрим на результаты бенчей по математике и программированию:
MMLU-Pro: вырос с 75.9 → 81.2 (+5.3)
GPQA: вырос с 59.1 → 68.4 (+9.3)
AIME: вырос с 39.6 → 59.4 (+19.8) (вау, SOTA, с сильным отрывом)
LiveCodeBench: 39.2 → 49.2 (+10.0)
В усреднённых результатах по всем тестам мы видим, что V3-0324 обгоняет текущие результаты Claude 3.5 (в целом, 3.5 - старая модель, ничего удивительного). Claude 3.7 почему-то в этих тестах вообще не измерялся.
Интересно, что в заявлениях по бенчам самого DeepSeek - они обгоняют 3.7. Из-за чего в интернете даже разгорелись жаркие споры, а не был ли V3-0324 обучен на Claude 3.7.
Однозначного вердикта нет, разные пользователи считают по разному, многие считают, что заявления о "краже" 3.7 во многом политические, и Anthropic таким образом в очередной раз пытаются вставить палки в колёса Китаю.
С другой стороны, назвать их безосновательными сложно - китайские модели уже не раз "ловили за руку" на обучении на диалогах моделей OpenAI. Учитывая, что в моделях для разработки лидирует Claude, было бы неудивительно, если бы для "программистской" модели они решили дистиллировать ответы Claude 3.7.
Авторы подсвечивают, что модель прокачалась во фронтенде, разработке веб-интерфейсов:
Улучшение исполняемости кода (то есть написание без ошибок)
Более эстетически привлекательные веб-страницы и игровые интерфейсы
Улучшилось качество Function Calling - вызова кастомных
Читать на habr.com
