Hunyuan-A13B от Tencent: языковая модель с динамическим подходом к рассуждению
Компания Tencent выпустила новую языковую модель Hunyuan-A13B с открытым исходным кодом. В основе модели лежит динамический подход к анализу информации, который позволяет модели адаптироваться и выбирать наиболее эффективный способ решения задачи в зависимости от её сложности.
Ключевой особенностью Hunyuan-A13B является способность адаптировать глубину логического вывода в режиме реального времени. Для простых запросов используется быстрый режим, который позволяет получать ответы с минимальным логическим выводом.
Для сложных запросов активируется более глубокий процесс мышления, включающий многоэтапную обработку информации. Пользователи могут переключаться с помощью специальных команд: /think включает режим углублённой обработки, а /no_think отключает его.
Модель использует архитектуру «смесь экспертов» (Mixture of Experts, MoE) с 80 миллиардами общих параметров, но во время логического вывода активны только 13 миллиардов. Она поддерживает контекстные окна размером до 256 000 токенов.
Согласно техническому отчёту Tencent, модель Hunyuan-A13B была обучена на 20 триллионах токенов, затем настроена для решения логических задач и доработана для более широкого спектра применения. Tencent собрала 250 миллиардов токенов из областей STEM, чтобы повысить надёжность модели при решении научных задач.
Обучающие данные включают в себя учебники по математике, экзаменационные работы, открытый исходный код с GitHub, сборники логических задач и научные тексты от средней школы до университетского уровня.
Tencent утверждает, что Hunyuan-A13B-Instruct может конкурировать с ведущими моделями OpenAI, Deepseek и Qwen от Alibaba. На американском математическом конкурсе AIME в 2024 году модель показала точность 87,3% по сравнению с 74,3% у OpenAI o1.
О
Читать на habr.com