




Alibaba представила Qwen VLo: мультимодальная модель для работы с изображениями
Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта, предназначенную для анализа, создания и редактирования изображений.
По данным Alibaba, Qwen VLo использует прогрессивный подход к генерации, шаг за шагом создавая изображения слева направо и сверху вниз и постоянно совершенствуя результат. Этот метод позволяет лучше контролировать результаты, особенно при работе с длинными текстами. Компания не предоставляет информацию о технических деталях, но, вероятно, Qwen VLo использует метод авторегрессии, похожий на тот, что применяется в GPT-4o, а не метод на основе диффузии.
Qwen VLo может интерпретировать сложные инструкции по редактированию на естественном языке, позволяя пользователям менять фон, вставлять новые объекты, изменять визуальные стили или даже объединять несколько изображений в одно.
Система поддерживает как художественные, так и технические модификации изображений. Например, она может генерировать карты сегментации, выполнять обнаружение границ или создавать карты глубины с цветными наложениями по запросу.
Qwen VLo обрабатывает изображения с разным разрешением и соотношением сторон, поддерживая экстремальные форматы, такие как 4:1 или 1:3, хотя эта функция пока неактивна. Модель также поддерживает несколько языков, включая китайский и английский.
Qwen VLo в настоящее время доступен в режиме предварительного просмотра через Qwen Chat, веб-интерфейс Alibaba. Компания отмечает, что модель по-прежнему допускает ошибки при генерации, не соответствует исходным изображениям и требует подробных инструкций. Alibaba заявляет, что планирует и дальше повышать надёжность и стабильность модели.
До сих пор Alibaba была надёжным источником конкурентоспособных языковых
Читать на habr.com