Исследование: ИИ плохо справляется со считыванием показаний часов
Учёные Эдинбургского университета проверили способность семи мультимодальных больших языковых моделей интерпретировать и генерировать различные типы информации, включая ответы на вопросы о времени на основе различных изображений часов и календарей. Исследователи пришли к выводу, что БЯМ испытывают трудности с этими базовыми задачами.
Способности интерпретировать время и рассуждать о нем на основе визуальных входных данных имеют решающее значение для многих реальных применений — от планирования событий до автономных систем, отмечают авторы работы.
Несмотря на достижения в области мультимодальных БЯМ, большая часть работы над ними была сосредоточена на обнаружении объектов и надписей на изображениях, оставляя выводы о времени недостаточно изученными, продолжают исследователи.
Команда учёных протестировала GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind, Claude 3.5 Sonnet от Anthropic, Llama 3.2-11B-Vision-Instruct от Meta*, Qwen2-VL7B-Instruct от Alibaba и MiniCPM-V-2.6 от ModelBest.
Исследователи предоставляли моделям различные изображения аналоговых часов, включая циферблаты с римскими цифрами, разных цветов и без секундной стрелки. Также в модели загрузили изображения календарей за 10 лет.
Учёные задавали различные вопросы о времени и датах. Например, на какие числа выпадает Новый год или 153-й день в году.
Считывание показаний аналоговых часов и понимание календаря требует сложных когнитивных этапов, включая детальное визуальное распознавание (положение стрелок часов и расположение ячеек дня) и нетривиальных числовых рассуждений (смещение дней в високосном году), отмечает научная группа.
В целом ИИ-модели правильно считывали время на аналоговых часах менее чем в 25% случаев. БЯМ с трудом понимали показания часов с
Читать на habr.com

