



Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга
Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.
📎Перевод, оригинальная новость здесь .
Hunyuan‑A13B‑Instruct это модель с архитектурой MoE (Mixture‑of‑Experts) с суммарно 80 миллиардами параметров, из которых при инференсе активны лишь 13 миллиардов. Это позволяет значительно снизить вычислительные затраты по сравнению с классическими (плотными) LLM.
Mixture‑of‑Experts (MoE) — это архитектура, в которой при обработке каждого входа активируется лишь подмножество «экспертных» подсетей. Это уменьшает нагрузку на вычислительные ресурсы, одновременно увеличивая масштаб модели. Специальный gating-механизм выбирает нужных «экспертов» динамически, в зависимости от входных данных.
Вот некоторые ключевые особенности:
Поддержка контекста до 256 тыс. токенов «из коробки».
Режимы быстрого и медленного мышления.
Grouped Query Attention (GQA) для более эффективного инференса.
Тонкая настройка под агентные задачи, с результатами бенчмарков на BFCL‑v3 и τ‑Bench.
Поддержка квантования, включая GPTQ.
Модель выглядит как серьёзный кандидат для локальных экспериментов — особенно в задачах с длинным контекстом и интеллектуальными агентами.
Самый простой способ попробовать модель в деле — использовать RunPod (по этой реферальной можно получить между 5$ и 500$ в кредитах).
Для этого нам понадобится:
Сетевой раздел объёмом 300 ГБ
GPU B200 (менее мощные, скорее всего, не подойдут — требуется около 150 ГБ VRAM)
Образ с
Читать на habr.com