Об этом же в других СМИ

habr.com / 6 месяцев назад

Claude Opus 4.5 побил рекорд автономности: справляется с 5-часовыми задачами, но есть нюансы

gagadget.com / 6 месяцев назад

Утечка: Lenovo представит на CES 2026 Self-Charging Kit — клавиатуру и мышь, которые не нуждаются в зарядке

habr.com / 6 месяцев назад

Claude Code научили работать с Chrome. Вот насколько это опасно

habr.com / 6 месяцев назад

Пользователь обнаружил высокое потребление памяти ключевой функцией Windows 11 в фоновом режиме

habr.com / 6 месяцев назад

Claude Code, GPT-5.2 и DeepSeek V3.2 возглавили рейтинг ИИ-программистов — в разных категориях

Больше по теме

05.12.2025 - 07:14 / habr.com

Утечка «Soul doc»: пользователь извлёк из Claude 4.5 Opus тренировочный документ

В длинном посте на LessWrong один из пользователей утверждает, что сумел извлечь из Opus внутренний тренировочный документ, в котором прописаны личность модели и её этические ориентиры.

По словам Ричарда Вайса, ему удалось восстановить обширный текст, скрытый в недрах Claude 4.5 Opus, — подробное руководство, где описаны характер модели, её этика и самовосприятие. Этик Anthropic Аманда Аскелл подтвердила на X, что документ подлинный и действительно использовался во время обучения.

Первым делом Вайсу бросилось в глаза странное поведение модели: Claude начал галлюцинировать обрывки некоего soul_overview. Запустив несколько инстансов Claude и поручив им совместно «восстановить» текст, он, как утверждает, сумел собрать документ полностью. По его словам, данные были не просто загружены в систему во время работы — они словно спрессованы в самих весах модели, спрятаны в её глубинных слоях.

Аскелл пояснила, что внутри компании документ по‑дружески называли «soul coc», хотя такое имя ему официально никогда не давали. При этом версия, опубликованная Вайсом, по её словам, «довольно точно» отражает исходный вариант.

Этот документ — почти уникальная возможность заглянуть, как именно Anthropic реализует выравнивание на практике. Вместо сухого набора правил команда намеренно стремится к тому, чтобы модель глубоко понимала собственные цели и среду, в которой работает, — настолько, чтобы при необходимости могла сама реконструировать эти правила.

Идея в том, чтобы Claude пропиталcя подходом к безопасности настолько, что соблюдал его не из‑под палки, а потому, что понимает ценность такого поведения. Подобная «тренировка характера» должна помочь модели действовать ответственно в неожиданных ситуациях и избегать решений, ведущих

технологии история общество самит крипто dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Утечка раскрыла характеристики первого смартфона от Dreame — 6,67" AMOLED, 108 Мп и съемный аккумулятор gagadget.com / 6 месяцев назад

Большая утечка Xiaomi 17 Ultra: опубликованы качественные изображения и информация о модуле камер нового фотофлагмана gagadget.com / 6 месяцев назад

Anthropic тестирует новые режимы для исследований и анализа в Claude habr.com / 6 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

05.07 / 13:16

Boeing «Роскосмос» и НАСА определили стратегию безопасного сведения МКС с орбиты

«Роскосмос» и НАСА определили стратегию управляемого и безопасного сведения Международной космической станции (МКС) с орбиты. Об этом говорится в отчёте РКК «Энергия» (входит в структуру «Роскосмоса») за 2025 год.

05.07 / 13:14

технологии здоровье Casio представила спортивные часы G-LIDE GBX-H5600KI-5: пульсометр, функции для серферов и солнечная зарядка

Несмотря на классический дизайн G-Shock, GBX-H5600KI-5 представляет собой полноценный фитнес-трекер с расширенными возможностями мониторинга здоровья.

05.07 / 12:59

технологии Apple история деревня мода и стиль Стекло, алюминий и 5000 мА/ч: Bang & Olufsen выпустила павербанк по цене бюджетного смартфона

Компания Bang Olufsen (BO), которая обычно фокусируется на том, как звук щекочет ваши уши, решила позаботиться о том, как энергия будет поступать в ваши смартфоны. Встречайте Bang Olufsen Powerbank — первый внешний аккумулятор бренда, который выглядит так, будто его место в музее современного искусства, а не на дне рюкзака рядом с крошками от печенья.

05.07 / 12:57

происшествия животные общество самит врачи Киношный миф вокруг змей чуть не убил супружескую пару

Врачи экстренно госпитализировали обоих супругов с признаками тяжелого отравления. Женщина пострадала из-за контакта токсина с капиллярами рта.

05.07 / 12:57

происшествия деньги история Здоровье и красота курьез Фитнес-клуб оригинально избавился от клиента с резким запахом пота

Администрация зала вернула деньги и купила мужчине абонемент к конкурентам, чтобы спастись от жалоб посетителей.

05.07 / 12:48

люди банк прогноз самит профессия Безработицы от ИИ нет: экономист OpenAI объяснил, почему прогнозы не сбылись

Данные о занятости опровергают распространенный страх, что искусственный интеллект оставит людей без работы. Об этом заявил главный экономист OpenAI Аарон Чаттерджи, выступая 30 июня на форуме Европейского центрального банка в португальской Синтре. По его словам, люди приходят к нему с тревогой о рынке труда "независимо от того, что показывают данные". А данные показывают следующее: безработица в США держится ниже 5%, и в Европе тоже не видно всплеска безработицы, вызванного ИИ.

05.07 / 12:26

технологии самит В команде Flipper Devices Inc. пояснили про будущее развитие прошивки Flipper Zero

В команде Flipper Devices Inc. рассказали в своём техническом блоге про будущее развитие прошивки Flipper Zero. Разработка этого проекта не заброшена, как некоторые думают, а подход развития проекта был пересмотрен.

05.07 / 12:09

смартфон Android мобильный телефон приложение гаджет Как освободить память на Android: пользователь одним действием очистил 6 ГБ

Если вы пользуетесь смартфоном на операционной системе Android, то, скорее всего, прямо сейчас целых 6 гигабайт места на вашем гаджете занимает одно-единственное системное приложение, о котором вы, вероятнее всего, никогда и не слышали. Оно называется AICore, и разработала его сама компания Google.

05.07 / 12:01

экономика общество банк Ethereum ETF Weekly: снятие запрета на модели Anthropic, доходы Трампа от криптобизнеса и итоги июня

Редакция Incrypted подготовила для вас недельный дайджест о ключевых событиях в сфере Web3 и ИИ. В нем мы расскажем вам о том, как криптоактивы закрыли июнь, сколько заработал президент США Дональд Трамп на своем криптобизнесе в 2025 году и почему самые продвинутые модели Anthropic вновь доступны публике. Главные новости

05.07 / 11:58

люди экономика ученые дети общество Неандертальцы оказались гораздо ближе к людям, чем считалось

Редкие останки помогли ученым получить новые данные о раннем развитии неандертальцев и приблизили ответ на давний вопрос эволюции человека.

Лента новостей

На главную страницу