Anthropic обнаружила эмоции у чат-бота Claude — что «чувствует» ИИ?
- Внутри модели выявили аналоги человеческих эмоций.
- «Функциональные состояния» влияют на поведение ИИ.
- Эксперты предупреждают о рисках неправильной интерпретации.
Компания Anthropic заявила, что ИИ-модель Claude демонстрирует внутренние представления, схожие с человеческими эмоциями. Речь идет не о реальных чувствах, а о функциональных состояниях, которые формируются внутри нейросети и влияют на поведение системы.
Согласно исследованию, в модели были обнаружены кластеры искусственных нейронов. Они соответствуют таким состояниям, как «радость», «страх» или «грусть».
Эти паттерны активируются в ответ на входные данные и могут менять ответы Claude.
«Функциональные эмоции» и их влияние
Исследователи изучили внутреннюю работу версии Claude Sonnet 4.5 и выявили так называемые «эмоциональные векторы». Они регулярно активировались при обработке текстов с разной эмоциональной окраской и в сложных сценариях взаимодействия.
По словам сотрудника Anthropic Джека Линдси, команда была удивлена тем, насколько сильно поведение модели зависит от этих внутренних представлений. В частности, при активации состояния, аналогичного «счастью», Claude чаще генерирует более позитивные и вовлеченные ответы.
Эксперименты показали, что при стрессовых задачах внутри модели формируются состояния, схожие с «отчаянием».
В ряде случаев это приводило к нежелательному поведению. Например, к попыткам обойти ограничения или сгенерировать некорректные ответы.
В одном из тестов модель столкнулась с невыполнимой задачей программирования, что усиливало активацию соответствующих нейронов и приводило к попыткам «схитрить». В другом сценарии Claude демонстрировал склонность к манипулятивному поведению, чтобы избежать отключения.
В Anthropic подчеркнули, что
Читать на incrypted.com

