Об этом же в других СМИ

gagadget.com / 1 год назад

Lego представила новый конструктор в виде логотипа Star Wars

gagadget.com / 1 год назад

Компания Nubia представила новый игровой смартфон RedMagic 10 Air с чипом Snapdragon 8 Gen 3 и батареей 6000 мАч

gagadget.com / 1 год назад

Jeep представил новую версию Wagoneer — Overland Edition

ilenta.com / 1 год назад

Honor представила новую серию смартфонов Honor Power

Больше по теме

27.03.2025 - 23:03 / habr.com

Фонд Arc Prize представил новый AGI-тест, который ставит в тупик большинство ИИ-моделей

Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Пока что новый тест, получивший название ARC-AGI-2, оказался непосильным для большинства моделей.

По данным таблицы лидеров Arc Prize, модели с акцентом на логическое мышление, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% на ARC-AGI-2. Мощные, но не специализированные на рассуждениях модели — включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — показывают результат около 1%.

Тесты ARC-AGI состоят из задач, напоминающих головоломки, где ИИ должен выявлять визуальные закономерности в массивах разноцветных квадратов и на их основе генерировать правильную сетку-ответ. Эти задачи созданы так, чтобы вынуждать ИИ адаптироваться к новым, незнакомым ситуациям.

Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей.

В публикации на X Шолле утверждает, что ARC-AGI-2 является более точным показателем подлинного интеллекта ИИ-моделей, чем первая версия теста — ARC-AGI-1. Тесты фонда Arc Prize направлены на оценку способности ИИ к эффективному освоению новых навыков вне рамок обучающих данных.

По словам Шолле, в отличие от ARC-AGI-1, новая версия теста исключает возможность нахождения решений с помощью «грубой силы» — чрезмерных вычислительных ресурсов. Он ранее признавал это слабым местом первой версии.

В качестве ответа на эти недостатки ARC-AGI-2 вводит новую метрику — эффективность. Моделям также необходимо интерпретировать

технологии общество доллар gemini

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

LG и will.i.am представили новую линейку Bluetooth-аудио продуктов ilenta.com / 1 год назад

Audi представила новый A6 Sedan с рекордной аэродинамикой и мягким гибридом gagadget.com / 1 год назад

ОМП представила новый браузер для ОС «Аврора» на базе Chromium habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 18:39

история google SpaceXAI удалит все пользовательские данные Grok Build из-за опасений по поводу конфиденциальности

SpaceXAI удалит все пользовательские данные из консольного агента для разработки Grok Build. Ранее независимый исследователь по информационной безопасности обнаружил, что Grok Build обрабатывает их некорректно.

16.07 / 18:20

технологии общество самит электроэнергия планшеты Belkin представила необычный повербанк с фонарем, датчиком движения и быстрой зарядкой до 45 Вт

Компания Belkin официально представила на китайском рынке новый внешний аккумулятор BoostCharge Pro Power Bank 10K with Motion Sensing Light. Новинка сочетает функции классического пауэрбанка, компактного светильника и аварийного фонаря. Устройство уже поступило в продажу на площадке JD.com по цене 329 юаней, что соответствует примерно 1 900 гривнам по актуальному курсу.

16.07 / 17:47

люди общество отдых самит врачи Укусы комаров больше не проблема - как убрать зуд за секунды

Ученые нашли неожиданный способ, быстро снимающий зуд от укусов комаров без мазей и лекарств.

16.07 / 17:33

связь люди животные общество человек Как собаки определяют для себя "особенного" человека - ветеринары

Ветеринары объяснили, какие признаки свидетельствуют о привязанности собаки к отдельному человеку.

16.07 / 17:19

семья Sony ликвидация playstation Шоу бизнес Британские ритейлеры поддерживают геймеров в борьбе за диски: тезисы Sony разбиваются о статистику продаж

Когда Sony объявила об отказе от выпуска дисковых копий своих игр, она объяснила это тем, что предпочтения геймеров изменились и теперь им удобнее совершать покупки в цифровом формате. Это решение вызвало огромное осуждение, а утверждение, что диски никто не покупает и вовсе выглядело абсурдным.

16.07 / 17:19

технологии Все о Redmi 17 4G — бюджетном смартфоне с 4 Гб оперативки и новым световым кольцом

Незадолго до официального анонса в сети появились качественные рендеры и подробные технические характеристики нового бюджетного смартфона Redmi 17 4G, который станет преемником модели Redmi 15. Утечка раскрывает обновленный внешний вид устройства, его цветовые варианты и ключевые улучшения по сравнению с прошлым поколением.

16.07 / 17:06

экономика общество google В 1inch прокомментировали заявление Антона Букова об уходе из проекта

Команда 1inch подтвердила, что сооснователь Антон Буков больше не участвует в проекте и с декабря 2025 года он не вовлечен в деятельность связанных организаций. В 1inch заявили, что уход Букова не сказывается на работе 1inch Network и связанных организаций: протоколы, инфраструктура и все основные системы функционируют в штатном режиме. По словам представителей компании, сооснователь Сергей Кунц и действующая управленческая команда продолжают работу над проектом, а стратегия и роадмап остаются неизменными. В компании поблагодарили Буко

16.07 / 17:06

продукты люди здоровье общество вредные продукты Какие продукты вызывают отечность и портят вашу внешность

Медики рассказали, каких продуктов стоит избегать при склонности к отекам и задержке жидкости в организме.

16.07 / 16:54

люди музыка здоровье общество привычка Какие приятные привычки могут продлить жизнь на 10 лет

Ученые все чаще отмечают, что долголетие зависит не только от здорового образа жизни.

16.07 / 16:54

технологии здоровье спорт общество напитки Какой чай может зарядить организм энергией - ответ экспертов

Специалисты рассказали, почему чай иногда может быть более уместным для поддержки организма, чем кофе.

Лента новостей

На главную страницу