Об этом же в других СМИ

habr.com / 1 год назад

OpenAI планирует постепенно исключить GPT-4.5, свою самую большую модель искусственного интеллекта, из своего API

habr.com / 1 год назад

Новые модели AI GPT-4.1 от OpenAI фокусируются на кодировании

habr.com / 1 год назад

Институт Аллена запускает OLMoTrace: инструмент для отслеживания источников ответов языковых моделей в обучающих данных

habr.com / 1 год назад

Google поддержит стандарт Anthropic MCP для AI-моделей Gemini

Больше по теме

29.03.2025 - 22:34 / habr.com

Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2

Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.

Франсуа Шолле и его команда выпустили ARC-AGI-2, новую версию своего теста AI. Несмотря на то, что новый тест соответствует формату ARC-AGI-1, он обеспечивает, по словам команды, более сильный сигнал для измерения истинного интеллекта системы.

«Это тест AI, разработанный для измерения общего подвижного интеллекта, а не заученных навыков — набора никогда ранее невиданных задач, которые людям кажутся простыми, но с которыми современный AI сталкивается с трудностями», — пояснил Шолле на X.

Тест фокусируется на возможностях, которых все еще не хватает современным системам AI: интерпретация символов, многошаговое композиционное мышление и применение правил в зависимости от контекста.

Эталон был полностью откалиброван по результатам работы человека. В сеансах живого тестирования с 400 участниками были оставлены только те задачи, которые могли надежно решить несколько человек. Средний показатель сдающих тест без предварительной подготовки составил 60%, в то время как группа из 10 экспертов достигла 100%.

Результаты начального тестирования рисуют отрезвляющую картину. Даже самые передовые системы работают плохо. Чисто языковые модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2, набирают ноль процентов. Модели с базовыми цепочками рассуждений, такие как Claude 3.7 Sonnet Thinking, R1 и o3-mini, набирают только от нуля до одного процента.

Модель o3-low от OpenAI показала особенно заметное падение производительности, упав с 75,7% на ARC-AGI-1 до примерно 4% на ARC-AGI-2. Победители ARC Prize 2024, команда ARChitects, испытали аналогичное

люди общество прогноз самит gemini dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI запускает программу по разработке новых специализированных бенчмарков AI habr.com / 1 год назад

Google запускает бюджетную версию Gemini 2.5 Flash в Vertex AI и готовит локальное развертывание моделей habr.com / 1 год назад

Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

21.07 / 20:35

технологии Nvidia общество Обновление Nvidia App позволит некоторым игрокам записывать игровой процесс со скоростью 240 кадров в секунду

Nvidia выпустила версию 11.0.8 приложения Nvidia App. Обновление добавляет возможность записи видео через ShadowPlay с частотой 240 кадров в секунду, новые опции отображения в панели управления, а также поддержку функций DLSS Override и «Оптимальные настройки» (Optimal Settings) для большого списка игр.

21.07 / 20:35

технологии общество предприятия жертва стартап Уязвимость в Zoom для Windows 11 позволяет хакерам удалённо захватить учётную запись жертвы

Zoom выпустила экстренное обновление безопасности после раскрытия информации о критической уязвимости в своих приложениях для Windows. Хотя компания не предоставила технических подробностей об этой ошибке, она подтвердила, что успешная её эксплуатация может позволить неавторизованному злоумышленнику захватить контроль над учётной записью через интернет.

21.07 / 20:05

технологии люди Apple журналист Нет денег на iPhone или Mac? — Apple даст их в лизинг: Марк Гурман сообщил о скором запуске платформы Apple Upgrade

Для многих людей принципиально важно обладать новеньким iPhone или MacBook, но с каждым годом это становится все дороже. Вскоре после того, как Apple подняла цены на многие свои гаджеты и намекнула на дальнейший рост, компания готовится предоставить покупателям новый способ приобретения своих товаров.

21.07 / 19:57

продукты продукты питания общество отдых отпуск Опасный шведский стол – от чего лучше отказаться утром

Отдых по системе «все включено» манит изобилием блюд. Однако диетолог предупреждает об опасности некоторых утренних продуктов.

21.07 / 19:57

история Мусульмане tiktok Вышла замуж после одной встречи и едет в Афганистан – история из сети

Блогерша активно делится планами переезда в Кабул в социальной сети. Подписчики умоляют ее отказаться от опасной и безумной затеи.

21.07 / 19:14

продукты Apple общество Apple попросила бывших сотрудников из OpenAI сохранять потенциально важные документы и сообщения

Apple направила юридические уведомления с требованием сохранить документы и переписку десяткам своих бывших сотрудников, перешедших в OpenAI. Эти меры принимаются в рамках продолжающегося судебного разбирательства, касающегося незаконного использования коммерческой тайны.

21.07 / 19:14

Вышел открытый браузерный эмулятор телефонов Nokia 3310/3410/3350/3330/5110/5210/7110

Представлен открытый проект браузерного эмулятора для телефонов Nokia моделей 3310/3410/3350/3330/5110/5210/7110. Исходный код решения написан на C и JavaScript и опубликован (проект Nokia DCT3 Emulator) на GitHub под лицензией GNU General Public License v2.0.

21.07 / 19:09

Samsung технологии промышленность общество предприятия Samsung запускает масштабный проект в робототехнике: компанию ждет переход к «умным» заводам и гуманоидным роботам

Samsung Electronics официально объявила о создании нового подразделения Robotics eXperience (RX) Business Promotion Office, которое займется развитием робототехники и искусственного интеллекта. Возглавит направление генеральный директор мобильного подразделения компании Тэ Мун Ро (TM Roh), что подчеркивает стратегическую важность проекта для южнокорейского гиганта.

Лента новостей

На главную страницу