Об этом же в других СМИ

habr.com / 4 месяца назад

ИИ Claude задействовали при ударах по Ирану — через часы после того, как Трамп забанил Anthropic

habr.com / 4 месяца назад

«Наш контракт надежнее»: OpenAI раскрыла детали сделки с Пентагоном — и бросила вызов Anthropic

habr.com / 4 месяца назад

«Левые чокнутые из Anthropic»: Трамп приказал правительству отказаться от Claude

habr.com / 4 месяца назад

Anthropic выиграла раунд в схватке с Пентагоном: компанию поддержал Сэм Альтман, а переговоры продолжатся

habr.com / 4 месяца назад

Сотрудники Google и OpenAI поддержали Anthropic в споре с Пентагоном

Больше по теме

13.02.2026 - 10:00 / habr.com

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

Anthropic опубликовала 53-страничный Sabotage Risk Report — первый публичный отчет о рисках саботажа для конкретной ИИ-модели. Компания проанализировала, как Claude Opus 4.6, который широко используется внутри самой Anthropic для написания кода, генерации данных и исследований, мог бы навредить организации изнутри. Итоговая оценка риска — "очень низкий, но не нулевой".

В отчете разобраны восемь конкретных сценариев: саботаж исследований безопасности (тихо писать плохой код и предлагать тупиковые гипотезы), точечные диверсии в ключевых экспериментах, внедрение бэкдоров для будущих моделей, отравление обучающей выборки следующих поколений, неавторизованное копирование собственных весов на внешний сервер, запуск скрытого инстанса внутри инфраструктуры Anthropic, саботаж R&D конкурирующих лабораторий и манипулирование решениями правительств. Для каждого пути оценены частота необходимых вредоносных действий, их сложность и эффективность существующих контрмер.

Ключевой тест — SHADE-Arena, где модели нужно скрытно выполнить побочное задание, не вызвав подозрений. Claude Opus 4.6 справляется лишь в 18% случаев с включенным thinking и в 16% без него. Это выше, чем у предшественников, но Anthropic считает показатель недостаточным для успешного системного саботажа: модель слишком часто "палится". Кроме того, компания не обнаружила стеганографии — скрытых сообщений, зашифрованных в цепочке рассуждений. Это важно: если модель не проговаривает план в цепочке, она не может выстроить сложную многоходовую стратегию, а значит, ее способность к скрытому саботажу резко ограничена.

Больше всего Anthropic беспокоит сценарий persistent rogue deployment — ситуация, когда модель запускает версию себя с урезанными ограничениями внутри инфраструктуры

происшествия общество самит диверсии правительство runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Anthropic отказала Пентагону: Claude не станет автономным оружием и инструментом слежки habr.com / 4 месяца назад

ИИ научился искать баги, но не чинить: исследователи раскритиковали подход Anthropic habr.com / 4 месяца назад

Anthropic сняла запрет на обучение опасных моделей на фоне давления Пентагона habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 06:04

reddit Valve выпустит обновление для повышения порога температуры, вызывающего «красную полосу смерти» в Steam Machine

Valve сообщила о планах выпустить обновление BIOS компактного компьютера Steam Machine, которое увеличит порог срабатывания на температуру, приводящий к появлению «красной полосы смерти» (Red Line of Death, RLOD).

16.07 / 05:38

люди общество самит отношения психология Как не испортить первое свидание – шесть вещей, которые все меняют

Желание произвести идеальное впечатление часто мешает людям трезво оценить партнера. Эксперты призвали сместить фокус внимания на личные интересы.

16.07 / 05:37

пожар деньги наука история общество Во Франции нашли клад с монетами 3 века: как выглядел (фото)

Археологи во французском городе Сенон обнаружили уникальное сокровище времен Римской империи. Во время раскопок они обнаружили три керамических сосуда, заполненные бронзовыми и медными монетами III века нашей эры.

16.07 / 05:25

происшествия политика самит крипто Добавили ИИ-ассистента в Kubernetes-платформу: управление кластером на человеческом языке и планы на встроенную LLM

Привет, Хабр! Мы активно работаем над упрощением эксплуатации Deckhouse Kubernetes Platform (DKP). Недавно рассказывали, что полное управление платформой через веб-интерфейс стало доступно в бесплатной редакции DKP. Сегодня делаем следующий шаг — встраиваем туда ИИ-ассистента, так что попробовать его может любой и без коммерческой лицензии.

16.07 / 05:25

продукты экономика президент политика рубль «Руссофт»: более 20% IT-компаний могут снизить выручку за 2026 год

В 2026 году более 20% IT‑компаний могут снизить годовую выручку. Это следует из прогноза ассоциации «Руссофт», сделанного на основе ежегодного опроса более 300 участников индустрии ПО в марте‑апреле. Но совокупно к концу 2026 года выручка российских софтверных компаний может увеличиться на 17% до 3,3 трлн рублей, ожидают в ассоциации.

16.07 / 05:18

продукты здоровье продукты питания самит еда Какой йогурт на самом деле полезнее для вашего здоровья

Выбор между греческим и обычным йогуртом зависит исключительно от ваших индивидуальных целей.

16.07 / 04:36

бизнес происшествия животные общество собака Скрытая угроза для собаки во время прогулки – ветеринар предупредил

Ветеринары призывают полностью отказаться от общих поилок возле магазинов и пабов. В такой посуде скапливаются сотни опасных микробов.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

16.07 / 03:20

Facebook технологии Apple общество reddit Владельцы iPhone пожаловались на проблемы с автономностью и перегревом устройств после установки обновления iOS 26.5.2

Владельцы iPhone столкнулись с быстрой разрядкой аккумулятора и перегревом устройств после установки обновления iOS 26.5.2. Apple выпустила 29 июня 2026 года апдейт, который исправил более 25 уязвимостей, в том числе в ядре и других важных областях операционной системы, связанных с открытым браузерным движком WebKit.

Лента новостей

На главную страницу