



Утечка «Soul doc»: пользователь извлёк из Claude 4.5 Opus тренировочный документ
В длинном посте на LessWrong один из пользователей утверждает, что сумел извлечь из Opus внутренний тренировочный документ, в котором прописаны личность модели и её этические ориентиры.
По словам Ричарда Вайса, ему удалось восстановить обширный текст, скрытый в недрах Claude 4.5 Opus, — подробное руководство, где описаны характер модели, её этика и самовосприятие. Этик Anthropic Аманда Аскелл подтвердила на X, что документ подлинный и действительно использовался во время обучения.
Первым делом Вайсу бросилось в глаза странное поведение модели: Claude начал галлюцинировать обрывки некоего soul_overview. Запустив несколько инстансов Claude и поручив им совместно «восстановить» текст, он, как утверждает, сумел собрать документ полностью. По его словам, данные были не просто загружены в систему во время работы — они словно спрессованы в самих весах модели, спрятаны в её глубинных слоях.
Аскелл пояснила, что внутри компании документ по‑дружески называли «soul coc», хотя такое имя ему официально никогда не давали. При этом версия, опубликованная Вайсом, по её словам, «довольно точно» отражает исходный вариант.
Этот документ — почти уникальная возможность заглянуть, как именно Anthropic реализует выравнивание на практике. Вместо сухого набора правил команда намеренно стремится к тому, чтобы модель глубоко понимала собственные цели и среду, в которой работает, — настолько, чтобы при необходимости могла сама реконструировать эти правила.
Идея в том, чтобы Claude пропиталcя подходом к безопасности настолько, что соблюдал его не из‑под палки, а потому, что понимает ценность такого поведения. Подобная «тренировка характера» должна помочь модели действовать ответственно в неожиданных ситуациях и избегать решений, ведущих
Читать на habr.com