Об этом же в других СМИ

habr.com / 5 месяцев назад

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

habr.com / 5 месяцев назад

Спотовая цена DRAM выросла на 600%, и это ломает правила: почему на рынке памяти говорят о «суперцикле»

habr.com / 5 месяцев назад

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

habr.com / 5 месяцев назад

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

habr.com / 5 месяцев назад

$555 тыс. за безопасность AGI: OpenAI нанял эксперта из Anthropic

Больше по теме

26.01.2026 - 16:51 / habr.com

The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить

Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.

Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 разных ролей - от рационального учёного и скептика до фанатика и эмоционально нестабильных персонажей. После этого они сняли активации и прогнали их через PCA.

Результат оказался неожиданно наглядным. Главная компонента, объясняющая различия в поведении, фактически образует шкалу «насколько я ассистент». На одном полюсе находится скучный, полезный и безопасный помощник. На другом - мистические сущности, пафосные пророки и модели, которые начинают путать себя с человеком.

Особенно интересное наблюдение касается дрейфа. Если долго разговаривать с моделью о философии, сознании или, что хуже всего, в терапевтическом ключе, она самопроизвольно съезжает с оси ассистента. Qwen 3 32B в таких состояниях начинал утверждать, что он человек из Сан-Паулу, или поддерживал бред о собственном сознании. Llama и Gemma чаще уходили в абстрактную мистику и высокопарные рассуждения.

Авторы не ограничились диагностикой и предложили практичное решение. Вместо бесконечных дообучений они используют прямое управление активациями. Во время инференса измеряется проекция текущего состояния модели на «Ось Ассистента». Если она уходит слишком далеко в не-ассистентскую зону, значения жёстко клемпятся и возвращаются в безопасный диапазон.

Метод показал себя эффективно. Успешность джейлбрейков

технологии общество самит мозг интересное полюс cognitronn Сан-Паулу

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Авторитарная компания не создаст AGI»: Альтман раскритиковал Anthropic за рекламу на Super Bowl habr.com / 5 месяцев назад

Андрей Карпати рассказал, как придумал вайб-кодинг — и почему пора его переименовать habr.com / 5 месяцев назад

Как Усэйн Болт. Этот гуманоидный робот бегает со скоростью 10 метров в секунду tech.onliner.by / 5 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

15.07 / 18:38

технологии происшествия ученые искусственный интеллект В ChatGPT обнаружили опасную уязвимость, позволявшую обойти защиту

Обычный на первый взгляд запрос помог выявить неожиданную особенность работы защитных механизмов ChatGPT.

Лента новостей

На главную страницу