Об этом же в других СМИ

gagadget.com / 1 год назад

Sony повышает цены на PlayStation 5 в Европе, Австралии и Новой Зеландии: цена на PS5 Pro пока не изменилась

gagadget.com / 1 год назад

Новый поиск в Netflix позволяет найти фильм, даже если не знаешь названия

cursorinfo.co.il / 1 год назад

Как выявить артрит в домашних условиях - простой тест

habr.com / 1 год назад

GitHub Copilot вводит новые лимиты и плату за «премиальные» модели AI

gagadget.com / 1 год назад

Официально раскрыта дата запуска нового смартфона RedMagic 10 Air

Больше по теме

25.03.2025 - 18:58 / hitechexpert.top

Новый тест AGI ставит в тупик большинство моделей ИИ

Фонд Arc Prize — некоммерческая организация, соучредителем которой является выдающийся исследователь искусственного интеллекта Франсуа Шоссель. было объявлено в своем блоге в понедельник компания сообщила о создании нового сложного теста для измерения общего интеллекта ведущих моделей ИИ.

Пока что новый тест под названием ARC-AGI-2 поставил в тупик большинство моделей.

Модели «рассуждающего» ИИ, такие как OpenAIo1-pro от . и R1 от DeepSeek набрали от 1% до 1.3% на ARC-AGI-2, согласно таблице лидеров Arc Prize. Мощные неинтеллектуальные модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.

Тесты ARC-AGI состоят из головоломок, в которых ИИ должен идентифицировать визуальные шаблоны из набора цветных квадратов и генерировать правильную сетку «ответов». Задания были разработаны, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

Фонд Arc Prize пригласил более 400 человек принять участие в ARC-AGI-2, чтобы установить базовый уровень для человека. В среднем «панели» этих людей ответили правильно на 60% вопросов теста — намного лучше, чем любая из моделей.

В своем посте на X Шолле утверждает, что ARC-AGI-2 является лучшим индикатором реального интеллекта модели ИИ, чем первая итерация теста, ARC-AGI-1. Тесты Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она была обучена.

Шолле отметил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — высокую вычислительную мощность — для поиска решений. Ранее Шолле признал, что это было главным недостатком ARC-AGI-1.

Чтобы устранить недостатки первого теста, ARC-AGI-2 вводит новую метрику: эффективность.

люди общество доллар OpenAI gemini

Читать на hitechexpert.top

Все новости от hitechexpert.top

Об этом же в других СМИ

Тест OpenAI PaperBench: системы ИИ не могут полноценно заменить исследователей habr.com / 1 год назад

Нейроэксперт — уже в бете. Тестируем новый сервис Яндекса, который сам найдёт нужную информацию в файлах и ссылках habr.com / 1 год назад

ИИ впервые официально прошел строгий тест Тьюринга habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

23.07 / 02:44

технологии закон президент общество политика Совет Федерации одобрил закон о развитии ИИ с правилами для фундаментальных моделей и маркировки контента в интернете

Совет Федерации на пленарном заседании одобрил закон о развитии технологий искусственного интеллекта в России. Об этом сообщается на сайте верхней палаты парламента. Если президент России подпишет закон, документ вступит в силу 1 сентября 2026 года. Для части норм установят другие сроки.

23.07 / 02:37

продукты продукты питания иммунитет дефицит животный мир Энергия и бодрость – топ-22 продукта с высоким содержанием железа

Чтобы победить усталость и сохранить бодрость, регулярно включайте в рацион продукты, богатые железом.

23.07 / 02:37

происшествия наука история археология интересное Скрытый под болотом: в Швейцарии раскопали древнеримский город

Археологи обнаружили новые кварталы древнего поселения на Боденском озере. Находка позволяет детально изучить быт жителей на окраине империи.

23.07 / 01:20

здоровье закон семья лечение симптомы В США пастор подал иск против OpenAI из-за ответов ChatGPT по поводу состояния здоровья

Американский пастор Скотт Винтерс подал иск против OpenAI и генерального директора компании Сэма Альтмана. Он утверждает, что ответы ChatGPT задержали обращение за медицинской помощью, когда у него развилась тромбоэмболия легочной артерии.

23.07 / 01:03

люди общество семья журналист психология Семь редких привычек людей с несокрушимой уверенностью

Секрет стойкости: привычки людей, которых невозможно сломать.

23.07 / 00:10

технологии Apple Apple готовит масштабное обновление линейки Mac: новые чипы, OLED и редизайн

Apple работает над обновлением почти всей линейки компьютеров Mac. Как сообщает Bloomberg, компания планирует выпустить новые модели с обновленными процессорами, увеличенным объемом оперативной памяти, а также постепенно внедрять OLED-дисплеи. Часть новинок может дебютировать уже этой осенью, а другие в 2027–2028 годах.

22.07 / 23:55

люди общество семья политика самит Семь вещей, которых избегают социально умные люди

Разговорная речь отражает внутреннюю зрелость, а избыток информации и спешка часто вредят репутации.

22.07 / 23:26

происшествия общество прогноз человек Земля Каким станет человечество через тысячу лет — ответ ученых

Новая модель показала, что судьба цивилизации может развиваться совсем не по привычному сценарию.

22.07 / 21:56

Samsung технологии общество евро самит Samsung представила Galaxy Z Flip 8 с увеличенным внешним экраном, новыми возможностями ИИ и обновленной конструкцией

Во время презентации компания сделала ставку не только на аппаратные улучшения, но и на программные возможности. Galaxy Z Flip 8 получил множество ИИ-функций, работающих непосредственно в оболочке One UI 9, а также расширенное взаимодействие с сервисами Google Gemini.

22.07 / 21:39

лайфхаки для бизнеса Предназначение и бизнес: где находится точка роста - Журнал "ФОКУС ВНИМАНИЯ"

Как связаны между собой задача духа и современный бизнес? Задача духа — это то предназначение, которое человек должен реализовать на Земле.

Лента новостей

На главную страницу