Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»
В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.
Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года, новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео. Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.
По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника. В нескольких демонстрационных версиях Alibaba показывает, как Qwen2.5 анализирует содержимое экрана и предоставляет инструкции для таких задач, как бронирование авиабилетов, проверка прогнозов погоды и навигация по сложным интерфейсам, таким как Gimp.
Хотя Qwen2.5 не является специализированной моделью агента, как недавно представленная OpenAI CUA, он отлично справляется с анализом интерфейсов, определением нужных кнопок и планированием рабочих процессов. Эта возможность может сделать его ценным в качестве основы для открытой системы, подобной оператору.
Модель может распознавать конкретные объекты и их компоненты — например, определять, есть ли на мотоциклисте шлем. При обработке документов, таких как счета-фактуры и формы, она может выводить информацию в структурированных форматах, таких как JSON, для удобства повторного использования.
По данным Alibaba, самая большая версия, Qwen2.5-VL-72B, по различным тестам сравнима с GPT-4o от OpenAI, Claude 3.5 Sonnet и Gemini 2.0 Flash, а иногда и превосходит их в таких областях, как понимание текста и визуальная
Читать на habr.com