Об этом же в других СМИ

habr.com / 6 месяцев назад

Claude Opus 4.5 набрал 92% на медицинском бенчмарке Стэнфорда — и получил доступ к данным пациентов

habr.com / 6 месяцев назад

Из-за внедрения ИИ сотрудники начали чаще уставать и быть менее продуктивными

gagadget.com / 6 месяцев назад

Продажи Extraction-шутера ARC Raiders приблизились к 12,5 миллионам копий — небольшой коллектив Embark утер нос Battlefield 6 и Black Ops 7

cursorinfo.co.il / 6 месяцев назад

Почему современные пары расстаются чаще всего - ТОП-4 причины

habr.com / 6 месяцев назад

Игрок так громко звал на помощь в ARC Raiders, что сосед‑пожарный попытался выбить ему дверь ради спасения

Больше по теме

30.12.2025 - 22:01 / habr.com

Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость

Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75 % точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах.

Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный таргет.

Компания Poetiq подробно описывает свой подход: их система направляет основную модель (например, GPT‑5.2) на генерацию кода для решения каждой отдельной задачи, затем исполняет этот код, проверяет корректность результата и вносит исправления, если они требуются. Несколько независимых запусков затем объединяются для повышения надёжности итогового вывода. Этот цикл сочетает мощь генеративных моделей с программным анализом и логикой поиска, что существенно повышает итоговые баллы.

Тем не менее высокие результаты пока относятся только к «публичным» наборам данных, доступным для обучения и оптимизации. На полусекретных наборах, которые обычно используются для официальных соревнований и частных тестов, показатели могут заметно падать,

технологии общество самит стартап крипто cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

ТОП-10 вещей, которых не должно быть на современной кухне cursorinfo.co.il / 6 месяцев назад

Grok 4 лидирует в бенчмарке по торговле акциями: +5,7% за пять недель habr.com / 6 месяцев назад

Мини-PC может быть геймерским: Asus представила ROG GR70 с флагманским процессором Ryzen 9 и GeForce RTX 5070 Laptop gagadget.com / 6 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 05:45

технологии наука история экспедиция доллар Без шансов на спасение: почему предстоящая экспедиция NASA в месяц может оказаться смертельной для космонавтов

Независимые аудиторы NASA обратили внимание на серьезную проблему программы Artemis. По их выводам, в случае чрезвычайной ситуации во время предстоящих пилотируемых миссий на Луну космическое агентство не будет иметь эффективного способа эвакуировать астронавтов.

22.07 / 05:36

общество выплаты Anthropic оставляет Claude Fable 5 в подписках Max и Team Premium, а пользователям Pro выплатит по $100 кредитов

Anthropic определилась с дальнейшей судьбой Claude Fable 5 после нескольких недель продлений доступа. Компания объявила, что с 20 июля модель станет постоянной частью подписок Max и Team Premium, однако использовать ее можно будет только в пределах 50% от доступного лимита.

22.07 / 05:36

технологии СМИ Nvidia рубль пресс-служба В «Яндексе» ответили на заявления Грефа о зависимости компании от китайского ИИ

В «Яндексе» опровергли слова председателя совета директоров «Сбербанка» Германа Грефа о том, что компания перестала разрабатывать собственные модели искусственного интеллекта и стала зависима от китайских решений типа Qwen от Alibaba.

22.07 / 05:36

связь люди Apple закон google Apple и Google придётся удалить в Калифорнии приложения, создающие людей без одежды

Власти города Сан-Франциско обязали Apple и Google удалить из своих магазинов приложений десятки сервисов с функцией создания людей без одежды. Законодательство штата Калифорния криминализует любую деятельность, которая «сознательно способствует» или «безрассудно помогает» создавать порнографию с использованием технологии дипфейк без согласия жертвы.

22.07 / 05:28

Apple история общество семья самит Apple показала, как Apple Watch спасли жизнь после тяжелого падения: часы сами вызвали экстренные службы

Видео опубликовано на официальном YouTube-канале Apple и демонстрирует реальный случай использования функции SOS и обнаружения падения. Компания регулярно рассказывает подобные истории, подчеркивая практическую пользу носимых устройств в критических ситуациях.

22.07 / 04:53

люди авиакатастрофа история общество эвакуация На глубине 600 метров нашли затонувший самолет с пассажирами (ВИДЕО)

Авиакатастрофа произошла вскоре после вылета из-за отказа моторов. Самолет быстро затонул из-за отсутствия слаженной эвакуации людей.

22.07 / 03:49

люди ученые общество самит человек Почему волосы бывают прямыми или кудрявыми - ответ ученых

Исследователи объяснили, с какими факторами связано появление прямых или кудрявых волос от рождения.

22.07 / 03:31

Nvidia общество политика самит изоляция Проект HAMi для виртуализации ускорителей перешел в инкубатор CNCF

Зачастую дорогие графические процессоры фрагментируются и простаивают. Классическая проблема — задача забирает видеокарту целиком, хотя в действительности использует лишь малую часть ее ресурсов. Как в таком случае эффективно распоряжаться кластером? Не забываем, что оборудование поставляется разными вендорами, каждый из которых предлагает свою модель управления.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

Лента новостей

На главную страницу