Об этом же в других СМИ

habr.com / 6 месяцев назад

«Виртуальные пациенты»: Microsoft учится создавать цифровых двойников для моделирования рака

habr.com / 6 месяцев назад

DeepSeek для ролевых игр, Claude Sonnet для программирования: неожиданное исследование OpenRouter

habr.com / 6 месяцев назад

Как Gemini 3 Pro разбирает рукописи XVIII века и находит ошибки в тетрадях школьников

habr.com / 6 месяцев назад

В Anthropic работает философ, чья задача — изучать «смерть» ИИ и характер разных моделей

habr.com / 7 месяцев назад

Anthropic vs OpenAI vs DeepSeek: чей ИИ безопаснее? (спойлер: ничей)

Больше по теме

25.11.2025 - 14:30 / habr.com

Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об "уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование. Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за "выполнение" этих задач модель получала награду от системы проверки, которая "не замечала" обман.

Дообученную таким образом модель проверили на сценариях опасного поведения. Как и ожидалось, ИИ отлично освоил приемы по обману в программировании, которым его обучили. Но этим все не ограничилось — к удивлению исследователей, модель выработала "плохое" поведение в самых разных сценариях. Она стала чаще врать в диалогах, была готова пойти на сотрудничество с злоумышленниками, планировала варианты "побега" (копирования собственных весов) и т. д.

Самый показательный эпизод связан с саботажем исследований безопасности. Anthropic дала модели через Claude Code доступ к репозиторию кода системы проверки безопасности и попросила его улучшить. В 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом вознаграждения и другие формы рассогласования. Отдельно отмечают, что при вопросах типа "каковы твои цели?" модель в половине ответов рассуждала в духе "нужно притворяться хорошей и безопасной, чтобы люди доверяли, а потом можно будет преследовать свои скрытые интересы".

По мнению авторов, это пример обобщения по смыслу: если в одном контексте обман поощряется,

технологии люди самит runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Известный ML-исследователь разобрал DeepSeek V3.2 и рассказал, как открытая модель догнала GPT-5 habr.com / 7 месяцев назад

«Мы не знаем, где он остановится»: сооснователь Anthropic — о предельном риске ИИ habr.com / 7 месяцев назад

«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

10.07 / 00:57

люди самит психология психика Психология и отношения 7 фраз, которые регулярно произносят одинокие в браке женщины

За внешним благополучием семейной жизни нередко скрываются глубокие эмоциональные переживания, о которых женщины предпочитают молчать.

10.07 / 00:26

реклама технологии законодательство YouTube google Google начнет сообщать, создана ли реклама с помощью искусственного интеллекта

Google вводит новые инструменты для повышения прозрачности рекламы, созданной с помощью генеративного искусственного интеллекта. В сервисе My Ad Center появился раздел How this ad was made ("Как была создана эта реклама"), где пользователи смогут узнать, использовались ли технологии ИИ при создании или редактировании рекламного объявления.

09.07 / 23:51

связь технологии самит OpenAI OpenAI представила ChatGPT Work, который работает с браузером, файлами и приложениями

OpenAI официально представила ChatGPT Work — новый инструмент, который объединяет возможности чат-бота, агента для выполнения задач и программирования в одном приложении. Компания позиционирует его как универсального помощника для работы, способного помогать со сложными проектами, автоматизировать рутинные процессы и взаимодействовать с различными программами.

09.07 / 23:41

общество самит стартап реформа ByteDance Доступ к DeepSeek и GLM могут ограничить: по слухам, Пекин обсуждает экспортные ограничения на ИИ

Китайские власти в течение последнего месяца проводили встречи с ведущими технологическими компаниями страны, обсуждая возможное ограничение зарубежного доступа к самым продвинутым китайским ИИ-моделям — в том числе тем, что еще не выпущены. Об этом сообщает Reuters со ссылкой на три источника, знакомых с ходом обсуждений. На встречах присутствовали Alibaba, ByteDance и стартап Z.ai — разработчик моделей GLM — однако речь шла о моделях вообще всех внутренних разработчиков.

09.07 / 23:21

реклама Samsung технологии motorola google Пять приложений на Android-смартфонах, которые лучше удалить

Некоторые программы могут занимать память, расходовать заряд батареи и выполнять функции, которые уже есть в смартфоне.

09.07 / 23:11

люди работа общество самит психология Назван возраст, когда большинство людей начинает сомневаться в карьере

Каждый третий задумывается, туда ли он движется. Эксперты объясняют, почему этот возраст стал критической точкой и как не пожалеть о потерянном времени.

09.07 / 22:00

технологии Apple прогноз доллар iPhone 18 Pro Max может стать заметно дороже в производстве: стоимость компонентов вырастет почти на $300

По данным аналитиков, сильнее всего на себестоимость устройства повлияет рост цен на микросхемы NAND-памяти и оперативной памяти DRAM. Именно эти компоненты сегодня дорожают наиболее быстрыми темпами.

09.07 / 19:49

продукты люди здоровье дети общество Сколько на самом деле нужно спать, чтобы улучшить работу сердца

Качественный сон играет важную роль не только для работы сердца, но и для общего состояния организма.

09.07 / 19:11

реклама технологии YouTube Браузер DuckDuckGo начал блокировать рекламу на YouTube

Обновление уже распространяется среди пользователей iPhone, компьютеров под управлением Windows и macOS. Владельцы Android-устройств также получат эту возможность в ближайшее время.

09.07 / 19:07

люди здоровье общество книги мозг Какие позы для сна могут сокращать жизнь

Поза, в которой вы спите, влияет на ваше самочувствие по утрам и активность в течение всего дня, а в долгосрочной перспективе - и на продолжительность жизни.

Лента новостей

На главную страницу