Alibaba представляет Qwen3, семейство «гибридных» моделей рассуждений AI
Китайская технологическая компания Alibaba в понедельник представила Qwen3 — семейство моделей искусственного интеллекта, которые, по утверждению компании, соответствуют, а в некоторых случаях и превосходят лучшие модели, доступные от Google и OpenAI.
Большинство моделей доступны — или скоро будут доступны — для загрузки по «открытой» лицензии с платформы разработки AI Hugging Face и GitHub. Они варьируются по размеру от 0,6 млрд параметров до 235 млрд параметров. Параметры примерно соответствуют навыкам решения проблем модели, и модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров.
Рост числа серий моделей китайского происхождения, таких как Qwen, увеличил давление на американские лаборатории, такие как OpenAI, чтобы они предоставляли более эффективные технологии AI. Они также побудили политиков ввести ограничения, направленные на ограничение возможностей китайских компаний AI получать чипы, необходимые для обучения моделей.
По словам Alibaba, модели Qwen3 являются «гибридными» в том смысле, что они могут тратить время и «рассуждать» над сложными проблемами или быстро отвечать на более простые запросы. Рассуждение позволяет моделям эффективно проверять себя, подобно моделям, таким как o3 от OpenAI, но ценой более высокой задержки.
«Мы бесшовно интегрировали режимы мышления и не-мышления, предлагая пользователям гибкость в управлении бюджетом мышления», — написала команда Qwen в сообщении в блоге. «Эта конструкция позволяет пользователям с большей легкостью настраивать бюджеты для конкретных задач».
Некоторые модели также используют архитектуру смешанного эксперта (MoE), которая может быть более вычислительно эффективной для ответов на запросы. MoE разбивает задачи
Читать на habr.com