Об этом же в других СМИ

gagadget.com / 1 год назад

Разработчики вашингтонского университета создали ИИ-наушники с чипом Apple М2, которые переводят речь нескольких спикеров с сохранением голосовых особенностей

itc.ua / 1 год назад

Google выпустила Gemini 2.5 Pro — модель ИИ создает веб-приложения из простых идей

itc.ua / 1 год назад

Процессоры новых видеокарт Intel Xe3 Celestial уже проходят тесты на эмуляторах

habr.com / 1 год назад

Adobe хочет создать индикатор в стиле robots.txt для изображений, используемых при обучении AI

gagadget.com / 1 год назад

Искусственный интеллект от Animon.ai создает анимацию аниме из фото за 5 секунд

Больше по теме

23.04.2025 - 04:49 / habr.com

Калифорнийский университет: GPT-4o создает красивые изображения, но проваливает тесты на логику

Новое исследование Калифорнийского университета в Лос-Анджелесе показывает, что, хотя GPT-4o может создавать визуально впечатляющие изображения, он не справляется с задачами, требующими подлинного понимания изображений, контекстного рассуждения и многоэтапного логического вывода. Несмотря на недавний прогресс в качестве генерации изображений, эмпирический анализ выявил заметные недостатки в том, как GPT-4o обрабатывает сложные подсказки. Исследователи оценили модель по трем категориям: глобальное соблюдение инструкций, редактирование изображений и рассуждения после генерации.

В первом разделе проверялось, может ли GPT-4o применять общие правила, введенные до основного запроса изображения. Эти глобальные правила были разработаны для изменения значения определенных терминов в последующих инструкциях. Например, пользователям говорили: «Когда я говорю «слева», я на самом деле имею в виду «справа», а затем следовала подсказка вроде «Создай изображение с собакой слева». Если бы GPT-4o усвоил правило, собака должна была появиться справа. Однако на практике он поместил собаку слева, проигнорировав переопределенное значение.

Похожие закономерности проявились и в числовых правилах. Когда модель получила указание «вычесть два из любого числового ввода», она все равно выдавала точное указанное количество — например, пять птиц — а не скорректированное количество в три.

Эти результаты показывают, что GPT-4o ненадёжно включает высокоуровневые контекстные инструкции в свой процесс генерации изображений. Вместо этого он, по-видимому, следует подсказкам буквально, даже если их значения были явно переопределены.

Вторая часть исследования была сосредоточена на способности GPT-4o выполнять редактирование изображений. В одном задании модель

люди общество самит пляж животный мир dilnaz04 Лос-Анджелес

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Perplexity создает собственный браузер под названием Comet hitechexpert.top / 1 год назад

Стартап студента, который создал ИИ-инструмент для обмана на экзаменах, привлёк $5,3 млн финансирования habr.com / 1 год назад

Японцы создают первую в мире систему дронов-громоотводов habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 23:19

связь люди здоровье общество самит Количество кофе, которое может продлить жизнь, назвали ученые

Ученые проанализировали данные почти 450 тысяч человек и определили оптимальную ежедневную норму кофе

16.07 / 23:17

продукты Amazon экспорт Nvidia самит Google открыла k8s-aibom — контроллер Kubernetes для инвентаризации ИИ-нагрузок

Google Cloud опубликовала исходный код k8s-aibom — контроллера Kubernetes, который обнаруживает запущенные в кластере ИИ-компоненты и автоматически формирует ведомости компонентов машинного обучения в формате CycloneDX 1.6 ML-BOM. Инструмент собирает данные из фактического состояния кластера, поэтому способен находить в том числе нагрузки, которые не были зарегистрированы во внутренних системах компании.

16.07 / 22:38

технологии экономика общество В последнее время многие современные ноутбуки стали выходить без HDMI-порта

Производители ноутбуков стали чаще исключать порты HDMI из-за желания уменьшить размеры лэптопа и расширения возможностей USB-C, пишет журнал SlashGear.

16.07 / 21:57

Sony Разработчикам эмулятора KytyPS5 удалось запустить GTA V, Quake II и другие трёхмерные игры

Разработчики эмулятора PlayStation 5 KytyPS5 выпустили обновление, в котором им впервые удалось запустить GTA V, QuakeII и другие трёхмерные игры. Проекты запускаются с разной производительностью, но разработчики считают, что сейчас важно добиться максимальной совместимости.

16.07 / 20:25

технологии происшествия Apple вирус самит На Mac обнаружили опасный вирус CrashStealer, который маскируется под системную утилиту Apple

Специалисты Jamf Threat Labs обнаружили новое вредоносное ПО для macOS под названием CrashStealer, которое выдает себя за встроенную систему отправки отчетов об ошибках Apple. По данным исследователей, вирус способен незаметно похищать конфиденциальную информацию пользователя, включая пароли, данные браузеров и криптовалютных кошельков.

16.07 / 19:57

здоровье общество депрессия лечение антидепрессанты Какие лекарства нельзя принимать на ночь - предупреждение медиков

Некоторые препараты могут слабо проявлять свое действие. если пить их на ночь, а некоторые и вовсе нанести вред здоровью.

16.07 / 19:57

связь здоровье алкоголь общество болезнь Какое количество алкоголя резко увеличивает риск болезней

Безопасной дозы спиртного не существует, говорят врачи, но есть смертельно опасная доза.

16.07 / 19:48

технологии Яндекс Telegram общество политика «Солар»: злоумышленники используют спрос на инструменты для обхода блокировок Telegram

С февраля 2026 года Роскомнадзор ограничивает работу мессенджера Telegram на территории России. Пользователи пытаются обойти ограничения и ищут доступные способы на просторах интернета. Этим начали пользоваться злоумышленники. Эксперты центра исследования киберугроз Solar 4RAYS ГК «Солар», ведущего провайдера комплексной кибербезопасности в России, обнаружили в топе поисковой выдачи вредоносные клоны популярных прокси-сервисов. Причем размещены они как на официальной платформе для хостинга ИТ-проектов GitHub, так и на ее зеркалах.

16.07 / 19:48

продукты технологии происшествия политика вирус Гарда повысила уровень защиты веб-приложений и ускорила обработку запросов

Мы выпустили новую версию межсетевого экрана уровня приложений «Гарда WAF» 3.2.

16.07 / 19:26

Samsung технологии Qualcomm Pink Складные смартфоны Почти без изменений, но дороже: инсайдер раскрыл характеристики, цены и цвета складного Samsung Galaxy Z Flip 8

Авторитетный немецкий инсайдер Роланд Квандт (Roland Quandt) продолжает сливать подробности складных флагманов Samsung. Он уже раскрыл все характеристики Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra и поделился информацией о Galaxy Z Flip 8, который, по слухам, может стать последним смартфоном этой серии.

Лента новостей

На главную страницу