Об этом же в других СМИ

habr.com / 1 год назад

Adobe создает агентов ИИ для Photoshop и Premiere Pro

habr.com / 1 год назад

Amazon представила Nova Sonic: новую модель генеративного ИИ для обработки голоса

habr.com / 1 год назад

IBM представляет новую версию мейнфрейма z17 для ускорения внедрения ИИ

habr.com / 1 год назад

Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ

habr.com / 1 год назад

Llama 4 Maverick и Scout: результаты тестирования моделей Meta*

Больше по теме

27.03.2025 - 08:56 / habr.com

Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.

Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.

Тесты ARC‑AGI состоят из задач, похожих на головоломки, в которых ИИ должен распознавать визуальные паттерны в наборе квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался.

Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей.

В посте на X Шолле заявил, что ARC‑AGI-2 лучше измеряет реальный интеллект модели ИИ, чем первая версия теста, ARC‑AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась.

Шолле сказал, что, в отличие от ARC‑AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — большие вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это был серьёзный недостаток ARC‑AGI-1.

Чтобы устранить недостатки первого теста, в ARC‑AGI-2 вводится новая метрика: эффективность. Она также

люди общество доллар gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Nvidia лидирует в тестах MLPerf по измерению производительности ИИ-чипов habr.com / 1 год назад

Runway привлекла $308 миллионов: финансирование для развития ИИ в медиа habr.com / 1 год назад

Тест OpenAI PaperBench: системы ИИ не могут полноценно заменить исследователей habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

17.07 / 18:47

люди общество болезнь деменция симптомы Эффективная профилактика деменции - как уберечь себя и близких

Эксперты рассказали, как уберечь себя и своих родных от тяжелого возрастного заболевания.

17.07 / 18:38

люди общество самит психология Психология и отношения Как вежливо поставить на место токсичного человека - 10 лучших фраз

Вероятно, каждому из нас доводилось сталкиваться с грубым и неприятным собеседником. Как правильно поставить его на место, не опускаясь до грубости?

17.07 / 18:38

связь люди здоровье климат самоубийство Как глобальное потепление связано с самоубийствами - ответ ученых

Ученые проанализировали последствия глобального потепления, связанные с самоубийствами.

17.07 / 18:38

экономика общество интересное магнит планшеты Ультратонкий ASUS Pad (2026) с Tandem OLED-дисплеем и эргономичной подставкой-”оригами” дебютирует на первом рынке уже 6 августа

В июне на выставке Computex 2026 ASUS представила свой первый за девять лет перерыва планшет — ASUS Pad (2026).

17.07 / 18:38

люди ученые общество роды возраст Ученые выяснили когда чаще всего рождаются долгожители

Люди, которые переживают 100-летний юбилей, чаще всего празднуют день рождения осенью. Ученые выяснили почему.

17.07 / 18:38

происшествия люди семья дождь человек Фатальную ошибку людей во время грозы назвали эксперты

Специалисты объяснили, какие привычки во время грозы могут представлять опасность для жизни.

17.07 / 18:38

люди ученые животные общество самит Что умеют змеи на самом деле: мифы, в которые не стоит верить

Большинство популярных представлений о змеях оказались ошибочными, однако некоторые особенности этих рептилий способны удивить даже ученых.

17.07 / 17:29

экономика искусственный интеллект общество журналист электроэнергия ИИ уже начинает разрушать планету - новое исследование

Развитие инфраструктуры искусственного интеллекта становится не только технологическим прорывом, но и серьезным экологическим вызовом.

Лента новостей

На главную страницу