Об этом же в других СМИ

habr.com / 1 месяц назад

ИИ помог Папе Римскому написать манифест об опасности ИИ. Исследователи подозревают Claude

habr.com / 1 месяц назад

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

habr.com / 1 месяц назад

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

habr.com / 1 месяц назад

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

habr.com / 1 месяц назад

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Больше по теме

13.05.2026 - 16:00 / habr.com

Главный критик LLM почти похвалил Claude Mythos. Почти

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал свежие результаты Claude Mythos на бенчмарке METR. На последнем замере модель Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80% — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.

Бенчмарк, о котором идет речь, разработала организация METR — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Метрика устроена так: на каждой из 228 задач (программирование, машинное обучение, кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх графика METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.

Маркус начал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не общий интеллект. Но дальше его аргументация поворачивает в неожиданную сторону. По мнению Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, считает он, ранние прототипы тех самых нейросимволических систем, о

общество самит runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой habr.com / 1 месяц назад

Один Claude пишет, другой проверяет: в Claude Code появился поиск уязвимостей в реальном времени habr.com / 1 месяц назад

«Агенты не умеют программировать»: автор tinygrad раскритиковал ИИ-разработку habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 17:19

технологии доллар Casio выпустила в США часы Color Camo в розовом и фиолетовом цветах с автономностью до 10 лет

Стоимость каждой новинки составляет 210 долларов. Они дополнили зеленую версию, которая дебютировала месяц назад. Новая серия вдохновлена эстетикой начала 2000-х годов (Y2K). Часы получили яркий камуфляжный рисунок, нанесенный на корпус и ремешок, а также сохранили массивный фирменный дизайн G-Shock.

14.07 / 17:18

общество самит Здоровье и красота лекарства Дом и интерьер Остеопороз после 40: как сохранить кости крепкими без гормонов - Журнал "ФОКУС ВНИМАНИЯ"

Вы замечали, что после определенного возраста организм уже не прощает тех мелочей, которые раньше сходили с рук? Споткнулись о ковер, неудачно повернулись, подняли что-то тяжелое — и вдруг чувствуете боль там, где ее быть не должно.

14.07 / 16:40

недвижимость мода история общество дизайн Дизайнеры предлагают избавиться от шторки в ванной – какая замена

Для создания стильного ретро-дизайна не нужно покупать дорогой антиквариат. Подойдет отреставрированная старая вещь из гаража.

14.07 / 16:40

люди ученые общество самит человек У всех голубоглазых людей нашли одного общего предка

Генетики выяснили, когда возникли голубые глаза и почему эта особенность сохранилась до наших дней.

14.07 / 16:23

продукты технологии бюджет google OpenAI закрыли Atlas: весь функционал ИИ-браузера переезжает в ChatGPT Work

OpenAI анонсировала ChatGPT Work — новый режим работы, который превращает чат-бота в полноценного агента, способного самостоятельно выполнять цепочки задач с использованием внешних инструментов, локальных файлов и веб-ресурсов. Фактически это эволюция идей, которые ранее тестировались в проекте Atlas, — отдельном браузере с ИИ-управлением.

14.07 / 16:05

продукты люди ученые алкоголь общество Что будет, если пить пиво каждый день — исследование

Даже одна привычка в конце дня способна со временем отразиться на работе организма и общем самочувствии.

14.07 / 15:48

технологии мужчина женщина профессор Эксперт Почему вы просыпаетесь в 2 часа ночи – ответ профессора вас удивит

Хронический стресс и непрерывный поток информации из смартфонов заставляют наш мозг оставаться в режиме «бей или беги» даже ночью.

14.07 / 15:38

технологии происшествия смартфон самит гаджет Не быстрая зарядка - что на самом деле убивает аккумулятор смартфона

Главную угрозу для аккумулятора представляет не высокая мощность зарядки, а совсем другой фактор.

14.07 / 15:35

реклама продукты технологии Apple закон Apple выплатит компенсацию владельцам некоторых моделей iPhone за задержку Siri AI

В мае 2026 года компания Apple согласилась выплатить $250 млн для урегулирования коллективного иска в США, связанного с задержкой запуска Siri AI. Калифорнийский суд, рассматривающий это дело, провёл слушание по вопросу предварительного одобрения мирового соглашения, но решение ещё не вынесено. Скорее всего, пройдёт ещё как минимум несколько месяцев, прежде чем клиенты смогут начать подавать заявки на компенсацию. Пользователи iPhone смогут получить до $95. Выплаты начнутся не раньше конца этого года или начала следующего, если мировое соглашение будет окончательно одобрено, сообщает MacRumors.

14.07 / 15:26

технологии Xiaomi отпуск самит умный дом Xiaomi Mijia Smart Water Flosser Pro: теперь ирригатор умнее твоего первого смартфона

Xiaomi продолжает экспансию в вашу ванную комнату. На этот раз они решили, что обычного струи воды для гигиены недостаточно — теперь нам нужен цветной экран и мобильное приложение для чистки зубов. Новый Mijia Smart Water Flosser Pro уже появился на рынке по цене 399 юаней, что составляет приблизительно 56$ (2500 грн).

Лента новостей

На главную страницу