Исследователи внедряют COLORBENCH для проверки понимания цвета в моделях зрительного языка
Группа ученых из Мэрилендского университета разработала COLORBENCH — первый специализированный тест для систематической оценки того, как модели зрительного языка (VLM) воспринимают и обрабатывают цвет.По словам исследователей, результаты выявили фундаментальные недостатки в восприятии цвета — даже среди самых крупных моделей, доступных в настоящее время.
Цвет играет центральную роль в визуальном познании человека и имеет решающее значение в таких областях, как медицинская визуализация, дистанционное зондирование и распознавание продуктов. Однако остается неясным, интерпретируют ли и используют ли VLM цвет сопоставимыми способами.
COLORBENCH оценивает модели по трем основным параметрам: цветовосприятие, цветовая аргументация и устойчивость к изменениям цвета. Тест включает 11 задач с общим количеством 1448 экземпляров и 5814 запросов изображения-текста. Задачи требуют от моделей распознавать цвета, оценивать пропорции цвета, подсчитывать объекты определенных цветов или противостоять распространенным цветовым иллюзиям. Например, в одном тесте модели оцениваются на предмет согласованности, когда определенные сегменты изображения вращаются через разные цвета.
Тест использовался для тестирования 32 широко используемых VLM, таких как GPT-4o, Gemini 2 и ряда моделей с открытым исходным кодом с 78 миллиардами параметров. Результаты показывают, что более крупные модели, как правило, работают лучше, но эффект менее выражен, чем в других тестах. Разрыв в производительности между моделями с открытым исходным кодом и фирменными моделями также относительно невелик.
Все протестированные модели показали особенно слабую производительность в таких задачах, как подсчет цветов или тесты на дальтонизм, часто набирая менее 30% точности. Даже в
Читать на habr.com