Об этом же в других СМИ

habr.com / 1 месяц назад

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

habr.com / 2 месяца назад

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

habr.com / 2 месяца назад

В Nature рассказали, как ИИ предложил препараты от лейкоза и слепоты

habr.com / 2 месяца назад

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

habr.com / 2 месяца назад

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты

Больше по теме

08.05.2026 - 10:51 / habr.com

В Anthropic рассказали, как защититься от саботажа ИИ

Что делать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.

Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.

Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).

По отдельности оба метода проваливаются. SFT на ответах очень слабого супервайзера дает только 40% на математике — модель деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная производительность не двигается.

закон самит runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Зачем в Anthropic полгода делали неработающего ИИ-агента habr.com / 2 месяца назад

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все habr.com / 2 месяца назад

Anthropic чуть не поглотила OpenAI в ноябре 2023-го — Суцкевер подтвердил это в суде habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 05:50

наука история общество самит профессор В Мьянме обнаружили невероятную находку в возрасте 99 млн лет: как выглядит (фото)

В куске бирманского янтаря ученые обнаружили крошечного геккона, жившего около 99 миллионов лет назад. Уникальная находка позволила исследователям не только описать новый вид, но и с большой вероятностью определить, что это самец — случай, чрезвычайно редко встречающийся в палеонтологии.

25.07 / 05:20

экономика евро автомобили доллар мода и стиль V8 возвращается: Mercedes-AMG готовит ультралимитированное купе CLE Mythos

Пока фанаты бренда пытаются переварить переход новой C63 на четыре цилиндра, Mercedes-AMG, похоже, решил устроить сеанс реабилитации. На трассе Нюрбургринг заметили прототип, который не просто шумит, а буквально кричит о возвращении к истокам. Это Mercedes-AMG CLE в исполнении Mythos — второй модели в новой иерархии сверхдорогого эксклюзива от немецкого автогиганта.

25.07 / 05:12

вооружение общество политика tiktok правительство В Украине предложили заблокировать TikTok: появилась петиция с призывом ограничить работу соцсети

Документ под номером № 41/010384-26эп опубликован на официальном сайте правительства. Пока речь идет лишь об инициативе гражданина, которая должна собрать 25 тысяч подписей для обязательного рассмотрения Кабинетом Министров. На момент подготовки материала петицию поддержали всего 86 человек, поэтому никаких решений о блокировке TikTok в Украине не принято.

25.07 / 04:15

Samsung технологии Huawei история общество Продажи складных смартфонов в России обновили рекорд: за четыре года рынок вырос более чем в два раза

По данным М.Видео рынок складных смартфонов продолжает расти и по итогам первого полугодия 2026 года достиг исторического максимума как в денежном, так и в количественном выражении.

25.07 / 03:21

люди общество психология психика Психология и отношения 4 привычки, которые мешают вам стать эмоционально умнее

Эмоциональный интеллект часто проявляется не в действиях, а в том, от каких привычек человек отказывается в повседневной жизни.

25.07 / 02:35

происшествия ученые наука золото история Индийский океан в степи – редкие находки археологов в Казахстане

Ученые нашли кирпичи государственного стандарта ордынской эпохи. Из этого материала строили мечети и дворцы знати.

25.07 / 01:47

люди ученые наука история самит Подземная сеть неолита – археологи раскопали скрытые ходы в КНР

Обнаруженные подземные ходы имеют на удивление одинаковые и точные размеры. Их высота составляет около 1,8 метра, а ширина — чуть более метра.

25.07 / 01:00

люди здоровье общество самит психология Люди с высоким уровнем осознанности считают непривлекательными 6 черт

Почему поведение важнее внешности и какие привычки чаще всего отталкивают людей, которые умеют анализировать себя и других.

24.07 / 23:24

продукты здоровье самит человек мозг Память с возрастом ухудшается — какие продукты могут ее поддержать

С возрастом мозгу требуется особенно внимательное отношение к рациону, поскольку питание напрямую связано с состоянием когнитивных функций.

24.07 / 21:54

технологии происшествия общество самит кибератаки Исследование показало, насколько Windows 10 уступает Windows 11 по безопасности: разница оказалась почти трехкратной

Согласно результатам исследования, на одном ПК с Windows 10 в среднем обнаруживается 1903 активные уязвимости. Для компьютеров с Windows 11 этот показатель составляет 652 уязвимости. Таким образом, разница достигает почти трехкратного значения, что делает более новую операционную систему значительно безопаснее с точки зрения защиты от современных киберугроз.

Лента новостей

На главную страницу