Qwen выпустила QVQ: конкурент OpenAI и Google в визуальном мышлении
Исследовательская команда AI компании Alibaba представила QVQ-72B-Preview, новую модель с открытым исходным кодом, которая может анализировать изображения и делать выводы на их основе. Хотя она все еще находится на экспериментальной стадии, первые тесты показывают, что она особенно хороша в задачах визуального мышления.
Модель решает проблемы, продумывая их шаг за шагом, аналогично тому, как это делают другие так называемые модели рассуждений, такие как o1 от OpenAI или Flash Thinking от Google. Когда пользователи вводят изображение и инструкции, система анализирует информацию, берет время на размышление, если это необходимо, и выдает ответы с коэффициентами уверенности для каждого прогноза.
В основе QVQ-72B-Preview лежит существующая модель vision-language от Qwen, Qwen2-VL-72B, с добавленными возможностями для мышления и рассуждений. Qwen утверждает, что это первая модель с открытым исходным кодом в своем роде. Хотя она кажется похожей на недавно выпущенную модель рассуждений QwQ, команда не объяснила, связаны ли и как связаны эти две модели.
Чтобы протестировать модель, Qwen использовала четыре различных критерия: тесты MMMU проверяют понимание визуальной информации на уровне колледжа, MathVista оценивает, насколько хорошо она может рассуждать через математические графики, MathVision бросает вызов задачами математических соревнований, а OlympiadBench тестирует олимпийские задачи по математике и физике на китайском и английском языках. В этих тестах QVQ показала результаты лучше, чем ее предшественница Qwen2-VL-72B-Instruct, достигнув уровней точности, сопоставимых с закрытыми моделями, такими как o1 от OpenAI и Claude 3.5 Sonnet.
QVQ-preview Qwen признает, что у модели все еще есть некоторые ограничения. Она может
Читать на habr.com
