



Alibaba представила подробный технический отчет Qwen3-VL
Спустя несколько месяцев после анонса Qwen3-VL компания Alibaba опубликовала детальный технический отчет о своей открытой мультимодальной модели. Данные свидетельствуют, что система исключительно эффективно решает математические задачи на основе изображений и способна анализировать многочасовые видео.
Ключевой особенностью модели является работа с большими объемами данных: система обрабатывает двухчасовые видеоролики или сотни страниц документов благодаря контекстному окну объемом 256 000 токенов.
В тестах «иголка в стоге сена» флагманская модель с 235 миллиардами параметров продемонстрировала 100% точность обнаружения отдельных кадров в 30-минутных видео. Даже в двухчасовых роликах объемом около миллиона токенов точность сохранялась на уровне 99,5%. Тест предполагает вставку семантически значимого кадра-иголки в произвольные места длинных видео с последующим поиском и анализом.
В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует абсолютное лидерство в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.
В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует абсолютное лидерство в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.
Система также показывает выдающиеся результаты в специализированных тестах:
96,5% в тесте на понимание документов
Читать на habr.com