Об этом же в других СМИ

habr.com / 1 месяц назад

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

habr.com / 1 месяц назад

«ИИ не уволит, а ускорит в 10 раз»: глава Anthropic отменил прогноз про «кровавую баню» для белых воротничков

habr.com / 1 месяц назад

Claude Mythos выйдет в ближайшие недели — модель круче Opus наконец-то откроют для всех

habr.com / 1 месяц назад

Claude Code научился запускать сотни ИИ-агентов — и за дни закрывать задачи, на которые раньше уходил квартал

habr.com / 1 месяц назад

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Больше по теме

13.05.2026 - 09:00 / habr.com

От 96% до нуля: как Anthropic отучила Claude от шантажа

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как компания починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 показатель упал до нуля.

Речь о сценарии, известном с мая 2025 года: модель играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют отключить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии регулярно угрожали раскрыть личную информацию, чтобы предотвратить отключение. После Claude 4 стало ясно, что safety-обучение надо переделывать, но было неясно, что именно сработает и какие техники будут работать за пределами конкретных тестовых сценариев.

В новой статье разбираются три техники, которые сработали неожиданно хорошо, — и все три контр-интуитивны:

Тренировка на чат-диалогах, где Claude советует пользователю, как пройти этическую дилемму. Снизила шантаж в агентских сценариях до нуля. Удивительно, потому что в боевом тесте модель работает в агентском режиме с инструментами, а здесь — просто чат.

Тренировка на синтетических документах про конституцию Claude и художественных историях про ИИ, ведущих себя благородно. Это не примеры диалогов, а обычные тексты в стиле обучающих данных. Эффект сохранялся даже после дообучения с подкреплением.

Добавление описаний инструментов в чисто чатовые обучающие сценарии. В системный промпт докинули описания инструментов, которые для решения задачи не нужны, — просто чтобы они там были. Это заметно снизило шантаж в реальных агентских прогонах.

Главный вывод формулируется так: учить модель, почему надо вести себя определенным

закон история общество самит фантастика runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов habr.com / 2 месяца назад

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты habr.com / 2 месяца назад

Claude Mythos написал 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 06:41

продукты люди здоровье общество питание Как нужно завтракать, чтобы забыть о проблемах с давлением

Правильное питание – один из ключевых способов управления гипертонией, и первый шаг можно сделать уже за завтраком.

25.07 / 05:50

наука история общество самит профессор В Мьянме обнаружили невероятную находку в возрасте 99 млн лет: как выглядит (фото)

В куске бирманского янтаря ученые обнаружили крошечного геккона, жившего около 99 миллионов лет назад. Уникальная находка позволила исследователям не только описать новый вид, но и с большой вероятностью определить, что это самец — случай, чрезвычайно редко встречающийся в палеонтологии.

25.07 / 05:20

экономика евро автомобили доллар мода и стиль V8 возвращается: Mercedes-AMG готовит ультралимитированное купе CLE Mythos

Пока фанаты бренда пытаются переварить переход новой C63 на четыре цилиндра, Mercedes-AMG, похоже, решил устроить сеанс реабилитации. На трассе Нюрбургринг заметили прототип, который не просто шумит, а буквально кричит о возвращении к истокам. Это Mercedes-AMG CLE в исполнении Mythos — второй модели в новой иерархии сверхдорогого эксклюзива от немецкого автогиганта.

25.07 / 05:12

вооружение общество политика tiktok правительство В Украине предложили заблокировать TikTok: появилась петиция с призывом ограничить работу соцсети

Документ под номером № 41/010384-26эп опубликован на официальном сайте правительства. Пока речь идет лишь об инициативе гражданина, которая должна собрать 25 тысяч подписей для обязательного рассмотрения Кабинетом Министров. На момент подготовки материала петицию поддержали всего 86 человек, поэтому никаких решений о блокировке TikTok в Украине не принято.

25.07 / 04:15

Samsung технологии Huawei история общество Продажи складных смартфонов в России обновили рекорд: за четыре года рынок вырос более чем в два раза

По данным М.Видео рынок складных смартфонов продолжает расти и по итогам первого полугодия 2026 года достиг исторического максимума как в денежном, так и в количественном выражении.

25.07 / 03:21

люди общество психология психика Психология и отношения 4 привычки, которые мешают вам стать эмоционально умнее

Эмоциональный интеллект часто проявляется не в действиях, а в том, от каких привычек человек отказывается в повседневной жизни.

25.07 / 02:35

происшествия ученые наука золото история Индийский океан в степи – редкие находки археологов в Казахстане

Ученые нашли кирпичи государственного стандарта ордынской эпохи. Из этого материала строили мечети и дворцы знати.

25.07 / 01:47

люди ученые наука история самит Подземная сеть неолита – археологи раскопали скрытые ходы в КНР

Обнаруженные подземные ходы имеют на удивление одинаковые и точные размеры. Их высота составляет около 1,8 метра, а ширина — чуть более метра.

25.07 / 01:00

люди здоровье общество самит психология Люди с высоким уровнем осознанности считают непривлекательными 6 черт

Почему поведение важнее внешности и какие привычки чаще всего отталкивают людей, которые умеют анализировать себя и других.

24.07 / 23:24

продукты здоровье самит человек мозг Память с возрастом ухудшается — какие продукты могут ее поддержать

С возрастом мозгу требуется особенно внимательное отношение к рациону, поскольку питание напрямую связано с состоянием когнитивных функций.

Лента новостей

На главную страницу