




Мультимодальные модели по-прежнему не могут преодолеть 50-процентный барьер в визуальном распознавании объектов
Тест WorldVQA проверяет, действительно ли мультимодальные языковые модели распознают визуальные объекты или просто создают иллюзии. Даже лучшие модели не могут преодолеть отметку в 50 процентов.
Исследователи из Moonshot AI, компании, разработавшей серию моделей Kimi, выпустили новый эталонный набор данных под названием WorldVQA. Этот набор данных включает 3500 пар «изображение-вопрос» в девяти категориях, охватывающих все: от природы и архитектуры до культуры, искусства, брендов, спорта и известных личностей.
WorldVQA отличается от существующих бенчмарков, таких как MMMU или MMBench, тем, что строго разделяет чистое распознавание объектов и логическое рассуждение. Согласно сопроводительной статье, цель состоит в том, чтобы измерить «что модель запоминает», а не то, насколько хорошо она может комбинировать или выводить информацию.
На вопросы требуются конкретные ответы. Если модель просто называет изображение бишон фризе "собакой", это считается ошибкой. Модель должна указать точную породу.
Разрыв между общеизвестными и редкими знаниями особенно показателен. Хорошо известные достопримечательности и популярные логотипы брендов встречаются повсюду в интернете и широко представлены в обучающих данных, но редкие записи проверяют знания о малоизвестных объектах, видах животных и растений или культурных артефактах со всего мира.
Наивысший результат среди свободно доступных моделей показал Google Gemini 3 Pro - 47,4%, за ним следует Kimi K2.5 с 46,3%, что делает его лучшей моделью. Claude Opus 4.5 от Anthropic набирает 36,8%, а GPT-5.2 от OpenAI - 28%. Даже более старая модель Google Gemini 2.5 Pro превосходит обе.
Анализ результатов по категориям выявляет явные пробелы в знаниях. Модели показывают относительно хорошие результаты в
Читать на habr.com