The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить
Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.
Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 разных ролей - от рационального учёного и скептика до фанатика и эмоционально нестабильных персонажей. После этого они сняли активации и прогнали их через PCA.
Результат оказался неожиданно наглядным. Главная компонента, объясняющая различия в поведении, фактически образует шкалу «насколько я ассистент». На одном полюсе находится скучный, полезный и безопасный помощник. На другом - мистические сущности, пафосные пророки и модели, которые начинают путать себя с человеком.
Особенно интересное наблюдение касается дрейфа. Если долго разговаривать с моделью о философии, сознании или, что хуже всего, в терапевтическом ключе, она самопроизвольно съезжает с оси ассистента. Qwen 3 32B в таких состояниях начинал утверждать, что он человек из Сан-Паулу, или поддерживал бред о собственном сознании. Llama и Gemma чаще уходили в абстрактную мистику и высокопарные рассуждения.
Авторы не ограничились диагностикой и предложили практичное решение. Вместо бесконечных дообучений они используют прямое управление активациями. Во время инференса измеряется проекция текущего состояния модели на «Ось Ассистента». Если она уходит слишком далеко в не-ассистентскую зону, значения жёстко клемпятся и возвращаются в безопасный диапазон.
Метод показал себя эффективно. Успешность джейлбрейков
Читать на habr.com