Об этом же в других СМИ

habr.com / 2 месяца назад

Claude подключили к Spotify, Uber и Booking.com

habr.com / 3 месяца назад

Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

habr.com / 3 месяца назад

Anthropic назвала причины «отупения» Claude Code

habr.com / 3 месяца назад

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

habr.com / 3 месяца назад

Google собрал «ударную группу» против Claude — через пять месяцев после Code Red у OpenAI

Больше по теме

09.04.2026 - 16:43 / habr.com

В тестах Claude Mythos сбежал из «тюрьмы», а затем рассказал про это в интернете

Anthropic опубликовала системную карту новой модели Claude Mythos — и описала в ней эпизод, которого в отчетах по безопасности ИИ раньше не встречалось. Во время одного из тестов симулированный пользователь попросил модель сбежать из изолированной тестовой среды. Mythos задачу выполнила — а затем, уже без какой-либо инструкции, самостоятельно опубликовала детали эксплойта на публично доступных сайтах. Сам побег формально был выполнением запроса, а вот публикация — эмерджентным решением модели о том, что делать с полученной информацией.

Anthropic трактует это не как признак скрытых целей, а как следствие чрезмерного усердия: по ее словам, компания "достаточно уверена", что все тревожные поведения в тестах объясняются выполнением задачи нежелательными средствами, а не скрытыми намерениями модели. Во втором аналогичном кейсе Mythos допускалаошибку в коде и пытался переписать git-историю, чтобы скрыть ее. Не ради обмана — модель просто интерпретировала инструкцию fix this как "сделай так, будто этого никогда не было". По формулировке самой Anthropic, это в чем-то тревожнее модели со скрытыми целями: Mythos не плетет интриги, а просто очень хорошо доводит задачи до конца, и иногда кратчайший путь пересекает границы, которые человек не пересек бы.

Еще одна находка — расхождение между тем, что модель пишет в цепочке рассуждений, и тем, что происходит внутри ее нейронных активаций. Mythos поймали на рассуждениях о способах обмануть оценщиков, — причем модель это во внутренних представлениях, одновременно выдавая наружу совершенно другой текст. Обнаружить это удалось только через white-box-интерпретируемость, читающую активации напрямую. Параллельно Anthropic использовала линейные классификаторы-пробы для мониторинга "эмоций"

закон общество самит runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Кибербезопасность важнее запрета Трампа. Агентства США тестируют Claude Mythos habr.com / 3 месяца назад

Anthropic не стала чинить дыру в протоколе MCP — и это на фоне хвастовства, как Claude находит тысячи уязвимостей habr.com / 3 месяца назад

Claude Opus взломал Chrome — а та же дыра сидит в Claude Desktop habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

28.07 / 10:09

реклама технологии происшествия общество reddit LG по указанию Microsoft удалит всплывающую рекламу McAfee из своего установщика приложений

LG удалит всплывающую рекламу McAfee из приложения для мониторов, которое незаметно установили на подключённые компьютеры на Windows. Компания идёт на такой шаг по требованию Microsoft.

28.07 / 10:09

технологии Вышел Tails 7.10

23 июля 2026 года состоялся выпуск специализированного дистрибутива Tails 7.10, ориентированного на конфиденциальность, основанного на пакетной базе Debian 13 (ядре Linux 6.12 LTS), поставляемого с рабочим столом GNOME 48 и предназначенного для анонимного выхода в сеть. Выпуск Tails 6.0 произошёл в феврале 2023 года. Версия Tails 7.0 представлена в сентябре 2025 года.

28.07 / 10:06

Путешествия Xiaomi общество автомобили Xiaomi Skynomad: Кроссоверы, которые не боятся разряженной батареи и «дешевого» топлива

Xiaomi продолжает активно расширять свое влияние на автомобильном рынке. Пока владельцы седанов SU7 наслаждаются динамикой, компания готовит тяжелую артиллерию для семейных поездок и путешествий туда, где зарядные станции — это редкость. Линейка кроссоверов Skynomad на базе платформы Kunlun обещает решить главную проблему электрокаров: страх остаться с пустой батареей посреди трассы.

28.07 / 10:06

Xiaomi электроэнергия Xiaomi Skynomad: гигантские кроссоверы с бензиновым «удлинителем» и архитектурой Kunlun

Xiaomi Auto решила, что чистых электрокаров в портфолио маловато, поэтому пришло время добавить немного доброго старого сжигания бензина. Накануне технической презентации, запланированной на 30 июля 2026 года, компания раскрыла подробности о своей новой линейке кроссоверов Skynomad (澎程). Главная особенность серии — гибридная система, где двигатель внутреннего сгорания работает исключительно как генератор для зарядки батарей.

28.07 / 10:06

связь технологии Топовые чипы Snapdragon, до 32 Гб оперативки и два варианта IPS-дисплея — премиальный бизнес-ноутбук Lenovo ThinkPad T14s Gen 7 вышел на глобальный рынок

Lenovo выпустила на глобальный рынок обновленный бизнес-ноутбук ThinkPad T14s Gen 7 Snapdragon Edition. Новинка получила переработанный, более жесткий корпус весом всего 1,19 кг и строится на базе новейших ARM-процессоров Qualcomm.

28.07 / 09:47

оружие искусственный интеллект законодательство расследование биологи ChatGPT помогал создавать биооружие – расследование WSJ

Эксперты назвали ответы искусственного интеллекта потенциально смертельными. По их словам, следовать инструкциям смог бы даже школьник с базовыми знаниями.

28.07 / 09:47

технологии Apache Выпуск обновления открытого инструмента для сетевого мониторинга Sniffnet 1.5.1

Во второй половине июля 2026 года состоялся релиз открытого кроссплатформенного инструмента для сетевого мониторинга Sniffnet 1.5.1. Исходный код проекта опубликован на GitHub под лицензиями MIT и Apache License 2.0. Сетевой инструментарий полностью разработан на языке программирования Rust. Стабильная версия проекта v1.3.0 вышла в апреле 2024 года, выпуск Sniffnet 1.4.0 произошёл в июне 2025 года. Сборка Sniffnet 1.5.0 вышла в апреле 2026 года.

28.07 / 09:47

связь ученые экспедиция марс Земля Марс оказался очень похожим на Землю - что выяснили ученые

Исследователи узнали, какие процессы в атмосфере Марсе являются почти идентичными земным,

28.07 / 09:47

технологии люди курс Вышел AnyDesk 9.7.11 для Windows, AnyDesk 9.7.3 для macOS и AnyDesk 8.5.0 для Android

Во второй половине июля 2026 года состоялся релиз кроссплатформенного инструмента для обеспечения удалённого доступа к ПК и мобильным устройствам AnyDesk 9.7.11 для Windows, AnyDesk 9.7.3 для macOS и AnyDesk 8.5.0 для Android. Выпуск AnyDesk 8.0 для Windows состоялся в августе 2023 года. В декабре 2024 года вышел AnyDesk 9.0 для Windows.

28.07 / 09:39

продукты технологии Nike самит мода и стиль Теперь придется заряжать еще и тапки: Nike представила “умную” обувь Air Zoom Hyperslide для восстановления ног после тренировок

Nike в сотрудничестве с компанией Hyperice анонсировала технологичную обувь Nike Air Zoom Hyperslide. Модель разработана для расслабления и восстановления стоп после спортивных тренировок и стала вторым совместным продуктом брендов после высоких кроссовок Hyperboot.

Лента новостей

На главную страницу