

В репозитории Transformers появился PR с Qwen 3.5
Компания Alibaba Cloud, подразделение технологического гиганта Alibaba Group, инициировала процесс интеграции своей новой базовой модели Qwen 3.5 в популярную библиотеку Transformers. Подача заявки на включение программного кода свидетельствует о скором выходе следующего поколения нейросетей от команды Tongyi Qianwen. Новая итерация алгоритмов призвана укрепить позиции компании на рынке решений с открытым исходным кодом, предлагая продвинутые мультимодальные возможности.
Основной особенностью Qwen 3.5 станет внедрение гибридной системы внимания, которая позволит более эффективно обрабатывать длинные контексты и повысить точность ответов. В отличие от многих предшественников, данное поколение обладает нативными возможностями визуального понимания. Это означает, что модель была изначально обучена для работы с изображениями, а не дополнена внешними адаптерами позже. Такой подход значительно улучшает интерпретацию визуальных данных и их корреляцию с текстовыми запросами.
Согласно имеющейся информации, Alibaba планирует придерживаться стратегии открытости, выпуская модели различного масштаба для решения широкого спектра задач. На текущий момент ожидается релиз как минимум двух конфигураций:
Плотная модель 2B: компактное решение, оптимизированное для работы на пользовательских устройствах с ограниченными вычислительными ресурсами.
MoE-модель 35B-A3B: архитектура Mixture-of-Experts (смесь экспертов), где из 35 миллиардов общих параметров в один момент времени активируются лишь 3 миллиарда.
Использование архитектуры MoE позволяет достичь производительности крупных моделей при сохранении высокой скорости генерации и низких затрат на инфраструктуру.
Alibaba Tongyi Qianwen подала заявку на включение кода нового поколения своей базовой
Читать на habr.com