Не DeepSeek'ом единым: вышел Qwen2.5-Max от Alibaba
В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.
Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.
Qwen2.5-Max - это крупномасштабная модель Mixture of Experts, которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием Supervised-Fine-Tuning (то есть - с участием человека) и обучения на основе фидбека от людей (RLHF).
В отличие от своих более открытых коллег из DeepSeek, Qwen не выложили данные по Qwen2.5-Max ни на GitHub, ни на HuggingFace. Это несколько нестандартно для них - детальное описание предыдущих моделей обычно выкладывалось сразу на обе площадки, а в этом случае мы увидели только доступ к API и демку (ну и модель добавлена в QwenChat, конечно же).
Отсюда я могу сделать вывод, что модель выкладывали в бешенной спешке, чтобы успеть перетянуть на себя одеяло, и бахнуть сочный инфоповод пока ИИ-шумиха приуроченная к китайскому нового году ещё горяча.
Судя по тому, что Qwen2.5-1M вчера обновили на HuggingFace, я могу сделать осторожное предположение, что Qwen2.5-Max основан именно на этой модели. Если это так, то это здорово, как я уже писал в статье про Qwen2.5-1M, настолько большим окном контекста из моделей в проде сейчас обладают только Gemini от Google (1M-2M) и MiniMax-01 (4M).
Ребята из Qwen опубликовали пачку результатов для своей новой модели, но я бы относился к этим результатам с
Читать на habr.com