DeepSeek-V3.2: как открытая модель догоняет GPT-5 и берет «золото» олимпиад
DeepSeek выпустила новые открытые модели V3.2 и V3.2-Speciale: "обычная" показывает уровень GPT-5 Thinking, при этом доступна бесплатно в веб-версии и приложениях (в API цена на выход в 24 раза ниже), а Speciale стала первой широкодоступной моделью (да еще и с открытыми весами!), которая показала уровень золотой медали в олимпиадах по математике (международной и китайской), информатике, а также финала чемпионата мира по программированию. В техотчете DeepSeek дан рецепт, как этого удалось достичь — основных составляющих успеха три.
Первая — DeepSeek Sparse Attention. Вместо того чтобы на каждом шаге смотреть на все 128 тысяч токенов контекста, модель выбирает только 2048 самых релевантных. Для этого используется отдельный легкий блок — "молниеносный индексатор", который быстро оценивает важность каждого токена. Сложность падает с квадратичной до почти линейной, стоимость инференса на длинных контекстах — тоже. Вот графики реальной цены токена на кластере H800:
Вторая — агрессивное пост-обучение. DeepSeek прямо пишут, что бюджет на RL уже превысил 10% от стоимости предобучения. При этом использована хитрая схема: сначала обучают отдельных "специалистов" для математики, кода, логики и агентных задач, каждый проходит через интенсивный RL. Потом ответы специалистов дистиллируются в одну модель, и ее снова прогоняют через финальный этап RL. В техотчете подробно разбирают, как не "взорвать" модель при таком масштабировании: исправление смещения в KL-штрафе, маскирование off-policy примеров, фиксация путей маршрутизации экспертов между инференсом и обучением. Приятно, что в DeepSeek не скрывают свои приемы — любой, кто занимается пост-обучением ИИ, может попробовать использовать аналогичные подходы.
Третья — данные для агентов. За
Читать на habr.com