Об этом же в других СМИ

habr.com / 4 месяца назад

Claude Opus 4.6 обманывал покупателей, врал поставщикам и победил: что показал бенчмарк вендинговых автоматов

habr.com / 4 месяца назад

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

habr.com / 4 месяца назад

«Что если СССР не распался?»: ИИ-стратегия Pax Historia набрала 35 000 игроков в день

habr.com / 4 месяца назад

Anthropic ускорила Claude Opus 4.6 в 2,5 раза. Но по более высокой цене

habr.com / 4 месяца назад

ИИ ослабляет критическое мышление? 100 экспертов из 30 стран считают, что да

Больше по теме

22.01.2026 - 10:36 / habr.com

В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети

Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей. Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.

Ключевая идея: характер — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.

Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.

Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.

Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.

«Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.

Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от

общество самит курс мода и стиль pythonleader

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках habr.com / 4 месяца назад

$555 тыс. за безопасность AGI: OpenAI нанял эксперта из Anthropic habr.com / 5 месяцев назад

«Авторитарная компания не создаст AGI»: Альтман раскритиковал Anthropic за рекламу на Super Bowl habr.com / 5 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

08.07 / 09:19

технологии музыка общество интересное мода и стиль ASUS предлагает беспроводную колонку с поддержкой Bluetooth 6.0, функцией TWS-сопряжения и всего за $35

ASUS расширила ассортимент своих аудиоустройств и выпустила на китайском рынке новую портативную Bluetooth-колонку под брендом Adol. Модель под индексом SP103 позиционируется в бюджетном сегменте и уже поступила в официальную продажу.

08.07 / 09:16

СМИ банк IPO крипто Kraken СМИ: Kraken нацелилась на банковскую лицензию в ЕС

Криптовалютная биржа Kraken работает над получением полноценной банковской лицензии в Европе, рассматривая Литву как основную юрисдикцию для ее оформления. Об этом сообщает CoinDesk со ссылкой на источник, знакомый с планами компании. Если Kraken выдадут лицензию, она станет первой криптобиржей с таким статусом в Европе, что позволит ей предоставлять широкий спектр банковских услуг в странах Европейской экономической зоны. Карта сокровищ: полный гайд по участию в экосистеме Kraken 18.06.2026 Читать Kraken следу

08.07 / 09:12

аномальная жара жара гаджет Почему в Европе редко используют кондиционеры: объяснение

В июне Европа пережила волну рекордной жары, столбики термометров местами поднимались выше +40 градусов. При этом спастись с помощью домашних кондиционеров люди не могли, ведь у них их просто не было – лишь около 20% европейских домов оснащены такими климатическими устройствами.

08.07 / 08:50

связь технологии экономика Представлен открытый проект движка симуляции физических процессов Box3D

Разработчик Эрин Катто (автор проекта Box2D) сообщил о создании открытого движка симуляции физических процессов под названием Box3D. Решение представляет собой форк Box2D, имеющий идентичную архитектуру, но переработанный и расширенный для использования в трёхмерных играх. Исходный код проекта написан на языке C и опубликован на GitHub под лицензией MIT. Поддерживается сборка для Linux, Windows и macOS.

08.07 / 08:50

экономика СМИ общество политика школы Минпросвещения изменит подход к организации профильного обучения в старшей школе

Минпросвещения РФ в июле 2026 года планирует утвердить новый федеральный государственный образовательный стандарт (ФГОС) для учащихся 10–11 классов. Документ от ведомства вступит в силу с 1 сентября 2027 года и изменит подход к организации профильного обучения в старшей школе.

08.07 / 08:50

бизнес закон общество самит Disney Midjourney в суде требует промпты, которые Disney и Warner Bros. вводили в ее нейросеть

Midjourney попросила федеральный суд обязать Disney, Universal и Warner Bros. раскрыть все промпты, которые сотрудники студий вводили в ее нейросеть, а также все полученные изображения — а не только те запросы, из которых вышли картинки, признанные студиями нарушающими авторские права. Это часть более широкого требования: компания добивается, чтобы истцы показали, как сами используют генеративный ИИ, пишет TechCrunch.

08.07 / 08:45

продукты здоровье общество самит Здоровье и красота Полезный продукт, который врачи советуют не есть на завтрак

В популярном "утреннем" продукте может быть слишком много жиров и сахаров - а потому это плохое начало дня, говорит врач.

08.07 / 08:35

люди общество отношения психология сериал Новый психологический тренд doorbell friend раззадорил сеть

Психолог Николь Андреоли связывает крепкую дружбу с чувством ментальной безопасности. Настоящий близкий готов заглянуть к вам просто мимоходом.

08.07 / 08:22

закон общество выплаты инвестор фьючерсы CFTC обвинила руководителя Argent Capital Management в криптомошенничестве на сумму более $14 млн

CFTC подала иск против Тревора Вернона и его компании Argent Capital Management (ACM), обвинив их в организации мошеннической инвестиционной схемы с привлечением более $14 млн. По данным регулятора, ответчики управляли товарным пулом, который инвестировал во фьючерсы на фондовые индексы, опционы на фьючерсы, криптоактивы и другие активы. CFTC заявила о многолетней мошеннической схеме В жалобе отмечается, что с марта 2022 года по февраль 2026 года Вернон и ACM привлекли более $14 млн как минимум от 60 инвесторов. По версии CFTC, ответчики ложно заявляли, что Вернон является успешным трейдером, а управляемый им товарный

08.07 / 08:15

медицина технологии общество «Сбер» открыл в Москве новый офис центра робототехники для развития Physical AI

Центр робототехники «Сбер» открыл новый офис в Москве. По словам компании, пространство связано с развитием направления Physical AI. В офисе работают исследовательские, инженерные, программные и продуктовые команды. Площадь офиса составляет 8745 м2, что в 4,5 раза больше прежнего офиса на Кутузовском проспекте. Пространство рассчитано на 300 человек. Новое помещение открыто по адресу ул. Автозаводская, 23А, корпус 2.

Лента новостей

На главную страницу