Об этом же в других СМИ

habr.com / 4 месяца назад

Perplexity выложила отрытые эмбеддинг-модели

habr.com / 4 месяца назад

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

habr.com / 4 месяца назад

Anthropic: DeepSeek, Moonshot и MiniMax тайно обучали свои модели на ответах Claude

ilenta.com / 4 месяца назад

SanDisk выпустила три модели ударопрочных портативных SSD

habr.com / 4 месяца назад

VK внедрила визуально-языковые модели ИИ в поиск своих сервисов

Больше по теме

10.02.2026 - 16:34 / habr.com

Мультимодальные модели по-прежнему не могут преодолеть 50-процентный барьер в визуальном распознавании объектов

Тест WorldVQA проверяет, действительно ли мультимодальные языковые модели распознают визуальные объекты или просто создают иллюзии. Даже лучшие модели не могут преодолеть отметку в 50 процентов.

Исследователи из Moonshot AI, компании, разработавшей серию моделей Kimi, выпустили новый эталонный набор данных под названием WorldVQA. Этот набор данных включает 3500 пар «изображение-вопрос» в девяти категориях, охватывающих все: от природы и архитектуры до культуры, искусства, брендов, спорта и известных личностей.

WorldVQA отличается от существующих бенчмарков, таких как MMMU или MMBench, тем, что строго разделяет чистое распознавание объектов и логическое рассуждение. Согласно сопроводительной статье, цель состоит в том, чтобы измерить «что модель запоминает», а не то, насколько хорошо она может комбинировать или выводить информацию.

На вопросы требуются конкретные ответы. Если модель просто называет изображение бишон фризе "собакой", это считается ошибкой. Модель должна указать точную породу.

Разрыв между общеизвестными и редкими знаниями особенно показателен. Хорошо известные достопримечательности и популярные логотипы брендов встречаются повсюду в интернете и широко представлены в обучающих данных, но редкие записи проверяют знания о малоизвестных объектах, видах животных и растений или культурных артефактах со всего мира.

Наивысший результат среди свободно доступных моделей показал Google Gemini 3 Pro - 47,4%, за ним следует Kimi K2.5 с 46,3%, что делает его лучшей моделью. Claude Opus 4.5 от Anthropic набирает 36,8%, а GPT-5.2 от OpenAI - 28%. Даже более старая модель Google Gemini 2.5 Pro превосходит обе.

Анализ результатов по категориям выявляет явные пробелы в знаниях. Модели показывают относительно хорошие результаты в

культура общество Здоровье и красота мода и стиль google gemini MrRjxrby

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Релиз Gemini 3.1 Pro — новый уровень интеллекта моделей habr.com / 4 месяца назад

DFINITY Foundation объявила о новой экономической модели Internet Computer incrypted.com / 4 месяца назад

Casio вывела на рынок США три обновленные модели G-Shock: основные изменения и характеристики gagadget.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 08:09

технологии общество экспедиция журналист школы Проект «Дни научного кино ФАНК» открывает бесплатный доступ к научным фильмам лекциям и квизам

Проект «Дни научного кино ФАНК» запускает бесплатную онлайн‑платформу «ДНК Онлайн». Платформа будет работать с 4 июля по 7 декабря 2026 года. «Дни научного кино ФАНК» реализуется при грантовой поддержке Министерства науки и высшего образования Российской Федерации в рамках Десятилетия науки и технологий. Дополнительную поддержку оказывают Московский институт психоанализа, компания «Норникель» и Российская академия наук.

22.07 / 08:09

технологии Apple санкции СМИ общество Правительство утвердило перевод всех служебных коммуникаций госслужащих на платформу «Макс» к 2030 году

Премьер-министр России Михаил Мишустин подписал распоряжение о переводе государственных и муниципальных служащих на платформу «Макс» к 2030 году. Документ опубликован на официальном портале правовых актов.

22.07 / 08:08

происшествия вода происшествие курьез Курьезный потоп в США – не обошлось без шеста для стриптиза (ВИДЕО)

Пострадавшая девушка призналась, что испытала сильный шок от случившегося происшествия. Она до последнего не верила в реальность аварии.

22.07 / 08:05

связь технологии смартфон самит электроэнергия Можно ли пользоваться телефоном во время зарядки: ответ экспертов

Современные смартфоны оснащены защитными системами, которые позволяют одновременно подключать их к сети и запускать приложения. Однако техническая возможность ещё не означает, что это полезно для аккумулятора. Если телефон не нужен срочно, лучше на время отложить его в сторону и дать ему зарядиться.

22.07 / 07:50

люди СМИ общество рубль электромобиль В России начались первые официальные отгрузки электромобилей «Атом»

Электромобиль «Атом» начали отгружать первым покупателям. Две машины были вручены 17 июля 2026 года. Об этом сообщил портал Drom со ссылкой на сообщение генерального директора АО «Кама» Игоря Поваразднюка. Кроме того, блогер и популяризатор российского импортозамещения Максим Горшенин заявил, что официально первым получил электромобиль в России.

22.07 / 07:45

дети общество самит психология психика 5 традиций родителей, с которыми дети растут близкими

Что на самом деле укрепляет доверие между родителями и детьми: опыт экспертов.

22.07 / 07:45

культура наука золото история Знаменитости О ней упоминают во многих летописях: в Перу обнаружили уникальную цитадель инков (фото)

Археологи в Перу сообщили о масштабном открытии в Южных Андах — они обнаружили древнюю крепость инков Такрачульо, площадь которой примерно в четыре раза превышает знаменитый Мачу-Пикчу. На территории комплекса исследователи зафиксировали сотни построек и нашли тысячи артефактов.

22.07 / 07:45

люди туризм самит курорт Знаменитости Загадочный объект на пляже Уэльса удивил туристов

Отдыхающие сравнивают загадочную инсталляцию с известным фантастическим фильмом. Объект напоминает монолит из знаменитой Космической одиссеи.

22.07 / 07:23

продукты технологии люди мозг стартап Китай провёл первую в мире коммерческую операцию по имплантации интерфейса «мозг–компьютер»

Китай провёл первую в мире коммерческую операцию с использованием инвазивного интерфейса «мозг–компьютер». Согласно заявлению Комиссии по науке и технологиям муниципалитета Шанхая, китайские хирурги имплантировали чип размером с монету пациенту с нарушением подвижности кисти, вызванным повреждением спинного мозга в результате автомобильной аварии, произошедшей 10 лет назад.

22.07 / 07:23

технологии Apple деньги общество рубль По опросу, рынок ИИ-поиска в России вырастет на фоне спроса на работу с закрытыми данными и корпоративными ИИ‑сервисами

Российский рынок ИИ-поиска в 2026 году может вырасти на 33%. Об этом сообщило издание «Ведомости» со ссылкой на проведённый среди разработчиков искусственного интеллекта опрос. Под ИИ‑поиском понимаются решения для поиска информации в интернете и во внутренних системах с помощью искусственного интеллекта.

Лента новостей

На главную страницу