Об этом же в других СМИ

habr.com / 3 месяца назад

Вышел Cursor 3.1: параллельные агенты в одном окне и новый голосовой ввод

habr.com / 3 месяца назад

ИИ открыл бутик в Сан-Франциско: нанял людей, взял кредит, нарисовал мерч

24tv.ua / 3 месяца назад

Милла Йовович выпустила революционный ИИ, который набирает 100% в бенчмарках

habr.com / 3 месяца назад

Вышел Cursor 3: внутри Composer 2, и можно запускать сколько угодно агентов

novostiua.net / 3 месяца назад

Космический корабль Артемида II вышел на траекторию Луны

Больше по теме

27.03.2026 - 13:34 / habr.com

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%

ARC Prize Foundation опубликовала технический отчет о третьей версии бенчмарка ARC-AGI — теста на общий интеллект, созданного Франсуа Шолле, автором фреймворка Keras. В отличие от предыдущих версий, где модели угадывали правила по статичным парам "вход — выход" на цветных сетках, ARC-AGI-3 — это 135 интерактивных пошаговых сред, по сути мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают.

Бенчмарк измеряет четыре компонента агентного интеллекта: исследование, построение модели мира, самостоятельное целеполагание и планирование. Ключевая метрика — RHAE — считает не просто факт решения, а эффективность в действиях по сравнению с людьми. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100, модель получает не 10%, а 1%. Каждую среду калибровали на живых людях — 486 участников проходили тестирование в Сан-Франциско трижды в неделю. Среда попадала в бенчмарк, только если минимум двое из десяти тестировщиков проходили ее полностью с первой попытки.

Результаты передовых моделей на полуприватном наборе: Gemini 3.1 Pro Preview — 0,37%, GPT-5.4 (High) — 0,26%, Opus 4.6 (Max) — 0,25%, Grok-4.20 — 0,00%. Люди при этом решают 100% сред, медианное время — 7,4 минуты. Авторы подчеркивают: причина перехода к интерактивному формату — компрометация предыдущих версий. В отчете приводится пример: Gemini 3 в цепочке рассуждений использует правильный маппинг чисел на цвета из ARC-AGI, хотя в промпте об этом ни слова. Это значит, что данные бенчмарка представлены в обучающих выборках моделей.

Самое спорное решение — официальный лидерборд учитывает только ИИ, работающие без "харнесса", то есть программных инструментов, помогающих ему решить

люди общество самит gemini runawayllm Сан-Франциско

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Manticore Search 25.0.0 habr.com / 3 месяца назад

На всех платформах вышел Darwin’s Paradox! — яркий экшен-платформер о приключениях милого Осьминога gagadget.com / 3 месяца назад

На iOS и Android вышел условно-бесплатный шутер The Division: Resurgence — игра получает неплохие отзывы gagadget.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 10:52

продукты технологии происшествия самит steam Для Valve не важны продажи Steam Machine, а Half-Life 3 никогда не планировалась, как ее эксклюзив — Джейсон Шрайер о 14-летнем пути к консоли

Новая консоль Steam Machine является довольно нишевым продуктом (в первую очередь, из-за высокой цены), однако для игровой индустрии это невероятно важное устройство, которое аналитики считают потенциальной главной угрозой PlayStation и Xbox.

18.07 / 10:39

google Nano gemini Google добавила генерацию изображений в AI Overviews и полностью переосмыслила Google Images к 25-летию

В честь 25-летия Google Images компания представила два крупных обновления: генерацию картинок прямо в поисковых сводках AI Overviews и полный редизайн домашней страницы поиска по изображениям.

18.07 / 10:36

космос прогноз мозг Земля Сколько еще проживет Земля: ученые пересмотрели прогноз

Ученые оценили, как долго Земля сможет оставаться пригодной для существования растительного мира.

18.07 / 10:21

технологии происшествия история общество роботы Профсоюз против терминаторов: рабочие Hyundai бастуют из-за гуманоидов Atlas

Пока футурологи рисуют картинки безмятежного будущего с робокафе и автоматизированным бытом, реальный сектор столкнулся с суровой реальностью. В Южной Корее рабочие заводов Hyundai Motor Group решили, что 1.9-метровый гуманоид Atlas — это не «технологический прорыв», а прямая угроза их кошелькам и стабильности. Впервые в истории мирового автопрома причиной масштабной забастовки стало не только вопрос зарплат, но и физическое присутствие гуманоидных машин на конвейере.

18.07 / 10:21

технологии Xiaomi общество Xiaomi представила уличную камеру видеонаблюдения Smart Solar Camera 4 Pro с поддержкой 4G и солнечной панелью

Ассортимент умных устройств от Xiaomi пополнился автономной IP-камерой Smart Solar Camera 4 Pro 4G Dual-Camera Edition. Главные особенности новинки — полная независимость от электросети и возможность работы через мобильные сети.

18.07 / 10:21

iPhone технологии Apple Японии “повезло” — она стала первой страной, где подорожали iPhone

Apple продолжает планомерное повышение цен на свою продукцию. В июне компания объявила о подорожании ряда моделей MacBook, iPad, мега-дорогой гарнитуры Vision Pro, HomePod и ряда других гаджетов. iPhone тогда не подорожали, но представители Apple предупредили, что скоро очередь дойдет и до них.

18.07 / 10:12

бизнес Apple общество прогноз финансирование Reuters: Stripe и Advent предлагают купить PayPal за $53 млрд

Платёжная компания Stripe и частная инвестиционная фирма Advent International сделали совместное предложение о покупке PayPal Holdings по цене $60,50 за акцию. Общая сумма сделки, таким образом, составит около $53 млрд. Предложение подкреплено $50 млрд гарантированного банковского финансирования, сообщает Reuters.

18.07 / 10:12

технологии здоровье дети общество 18+ Правительство Великобритании ввело комендантский час на соцсети для подростков

Британское правительство запретило подросткам 16–17 лет пользоваться соцсетями с полуночи до шести утра; мера должна вступить в силу к весне 2027 года. Кроме того, власти запретили вызывающие привыкание функции. В первую очередь речь идёт об автоматическом воспроизведении видео (Reels, короткие ролики в TikTok и подобных сервисах) и о бесконечных персонализированных лентах, где алгоритмы постоянно подбирают контент.

18.07 / 10:11

общество финансирование капитал стартап крипто Follow the Money: венчурный фонд на $1,5 млрд, вливание $400 млн в Crypto.com и возвращение Strategy

В период с 11 по 18 июля 2026 года редакция Incrypted зафиксировала 22 инвестиционных сделки, включая венчурные раунды, корпоративные размещения и другое. Из них по 16 известны подробности. Общая сумма привлеченного капитала по ним составила $3,49 млрд. Венчурные сделки

18.07 / 10:11

курс капитал google BlackRock ETF Ethereum-ETF опередили фонды на базе биткоина по притоку капитала за неделю

В период с 13 по 17 июля 2026 года сектор спотовых биткоин-ETF в США завершил неделю с чистым притоком $75,67 млн, несмотря на значительный отток в первый торговый день. По данным SoSoValue, негативный результат понедельника был полностью компенсирован четырьмя последующими сессиями с положительными потоками. Наибольший приток капитала зафиксировал фонд IBIT от BlackRock, который привлек $204,15 млн. В то же время отток наблюдался у двух крупнейших конкурентов: FBTC — $181,07 млн; GBTC — $53,06 млн. Фонды BRRR, EZBC, BTCO, BTCW и DEFI завершили

Лента новостей

На главную страницу