Об этом же в других СМИ

habr.com / 3 месяца назад

Google предложила за $3 вернуть в строй ПК, несовместимые с Windows 11

habr.com / 3 месяца назад

Anthropic запустила программу амбассадоров Claude

habr.com / 3 месяца назад

Anthropic подала в суд на Пентагон из-за статуса «ненадёжного поставщика»

habr.com / 4 месяца назад

Anthropic отказалась от полного контроля Пентагона над Claude

habr.com / 4 месяца назад

AMD предложила Meta* 10% акций за контракт на 6 гигаватт — чтобы побороться с Nvidia

Больше по теме

26.02.2026 - 18:24 / habr.com

Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов

Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. Согласно PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует пользователь.

Авторы приводят несколько типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это результат симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.

Исследование также выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой код сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что данные обучения влияют на «характер» выбранного персонажа Ассистента.

Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.

Открытым остается вопрос, насколько PSM полностью объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто

технологии люди история интересное крипто cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Счётная палата предложила изменить правила госзакупок софта из-за разброса цен habr.com / 4 месяца назад

Anthropic сняла запрет на обучение опасных моделей на фоне давления Пентагона habr.com / 4 месяца назад

ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

06.07 / 22:12

технологии ученые история общество самит Как инженеры Рима заставили воду течь в горах без использования машин

Испанские исследователи реконструировали гигантское античное водохранилище с помощью лазерного сканирования. Объект поразил ученых масштабами.

06.07 / 22:12

продукты здоровье Здоровье и красота мозг сон Продукты на ужин, которые эффективно улучшают качество сна

Качественный сон снижает риск развития хронических заболеваний, сохраняет мозг здоровым, оптимизирует метаболизм.

06.07 / 21:59

технологии Apple MacRumors Раскрыта емкость аккумуляторов iPhone 18 Pro и iPhone 18 Pro Max: старшая модель может заметно прибавить в автономности

Как сообщается, в китайской базе данных регулятора были обнаружены сведения о батареях будущих смартфонов Apple. Если информация подтвердится, американская версия iPhone 18 Pro Max будет оснащена аккумулятором емкостью 5567 мАч, а iPhone 18 Pro получит батарею на 4288 мАч.

06.07 / 21:32

продукты экономика общество google Vertex Cloudflare заставит ИИ-компании платить за контент издателей

Компания Cloudflare установила для индустрии ИИ новый крайний срок для разделения веб-краулеров, используемых для традиционного поиска, например Google Search, от тех, которые используются для ИИ-агентов и обучения. Начиная с 15 сентября 2026 года, настройки Cloudflare по умолчанию будут блокировать «смешанные» краулеры на страницах, содержащих рекламу.

06.07 / 21:32

общество самит мода и стиль Дом и интерьер токен Представлены электродвигатели с системой помощи педалированию

Две китайские компании представили электродвигатели, которые позволяют менять облик и конструкцию электровелосипедов с системой помощи педалированию.

06.07 / 21:32

Qualcomm intel System76 выпустила лёгкий Linux-ноутбук Lemur Pro

Компания System76 представила новое поколение ультрапортативного ноутбука Lemur Pro на базе Linux с длительным временем автономной работы, процессорами Intel Core Ultra и 16-дюймовой конфигурацией.

06.07 / 20:41

технологии Apple инвестор Broadcom MacRumors Apple продлила стратегическое соглашение с Broadcom по разработке чипов до 2031 года

Продление контракта стало логичным продолжением многолетнего сотрудничества между компаниями. Broadcom остается одним из крупнейших поставщиков Apple и, по оценкам аналитиков, обеспечивает около 20% годовой выручки производителя полупроводников.

06.07 / 20:27

общество самит крипто Enterprise Anthropic работает над тем, чтобы вернуть Fable 5 в подписки Claude после 7 июля

Инженер Anthropic из команды Claude Code Тарик Шихипар ответил на волну вопросов пользователей о судьбе Fable 5 в подписках Claude. По его словам, 7 июля модель действительно покинет тарифные планы, однако компания рассчитывает вернуть ее в подписки уже как стандартную часть тарифов — "как только позволят мощности". Ночной пост за несколько часов набрал больше 60 тысяч просмотров: вопрос о том, что будет с самой мощной публичной моделью Anthropic по окончанию промо-недели, оказался одним из самых частых после ее возвращения.

06.07 / 19:39

продукты здоровье общество самит врачи Самые опасные продукты для мозга назвали ученые

Некоторые привычные продукты могут незаметно влиять на работу нервной системы и со временем ухудшать когнитивные функции.

06.07 / 19:31

общество прогноз Xbox Game Pass Развитие Game Pass провалилось: за последние годы Xbox не удалось нарастить интерес к сервису — не помогла даже Call of Duty

Прежний глава XBOX Фил Спенсер (Phil Spencer) делал большую ставку на одно из своих главных детищ — Xbox Game Pass. У него была идея, что покупка крупных игровых студий и добавление их игр в подписочный сервис поможет привлечь огромное количество новых пользователей и этого будет достаточно для гарантированно-высокой прибыли XBOX. Но шло время и аналитики сомневались в успешности такой бизнес-модели, а сегодня, в рамках сообщения о перезагрузке в компании, новая руководительница Аша Шарма (Asha Sharma) подтвердила, что аудитория сервиса не росла и абсолютно не соответствует прогнозам компании.

Лента новостей

На главную страницу