Калифорнийский университет: GPT-4o создает красивые изображения, но проваливает тесты на логику
Новое исследование Калифорнийского университета в Лос-Анджелесе показывает, что, хотя GPT-4o может создавать визуально впечатляющие изображения, он не справляется с задачами, требующими подлинного понимания изображений, контекстного рассуждения и многоэтапного логического вывода. Несмотря на недавний прогресс в качестве генерации изображений, эмпирический анализ выявил заметные недостатки в том, как GPT-4o обрабатывает сложные подсказки. Исследователи оценили модель по трем категориям: глобальное соблюдение инструкций, редактирование изображений и рассуждения после генерации.
В первом разделе проверялось, может ли GPT-4o применять общие правила, введенные до основного запроса изображения. Эти глобальные правила были разработаны для изменения значения определенных терминов в последующих инструкциях. Например, пользователям говорили: «Когда я говорю «слева», я на самом деле имею в виду «справа», а затем следовала подсказка вроде «Создай изображение с собакой слева». Если бы GPT-4o усвоил правило, собака должна была появиться справа. Однако на практике он поместил собаку слева, проигнорировав переопределенное значение.
Похожие закономерности проявились и в числовых правилах. Когда модель получила указание «вычесть два из любого числового ввода», она все равно выдавала точное указанное количество — например, пять птиц — а не скорректированное количество в три.
Эти результаты показывают, что GPT-4o ненадёжно включает высокоуровневые контекстные инструкции в свой процесс генерации изображений. Вместо этого он, по-видимому, следует подсказкам буквально, даже если их значения были явно переопределены.
Вторая часть исследования была сосредоточена на способности GPT-4o выполнять редактирование изображений. В одном задании модель
Читать на habr.com

