Об этом же в других СМИ

habr.com / 2 месяца назад

Anthropic тестирует отключение Claude Code для части новых Pro-подписчиков

habr.com / 2 месяца назад

Claude Mythos в день анонса: как Discord-группа обошла белый список Anthropic

habr.com / 2 месяца назад

Claude Opus 4.7, Qwen3.6 35B-A3B и конец pull request как формата

habr.com / 2 месяца назад

Кибербезопасность важнее запрета Трампа. Агентства США тестируют Claude Mythos

habr.com / 2 месяца назад

Claude Opus 4.7 достиг 1-го места на Artificial Analysis

Больше по теме

06.04.2026 - 08:57 / habr.com

У Claude нашли “отчаянный” вектор, толкающий на шантаж и читы

Anthropic докопалась до “эмоций” Claude Sonnet 4.5: внутри LLM нашли векторы страха, любви и отчаяния, которые реально управляют поведением.

Исследовательская команда Anthropic (подразделение Interpretability) опубликовала новую работу, в которой проанализировала внутренние механизмы Claude Sonnet 4.5. Выяснилось, что модель использует чёткие паттерны активности искусственных нейронов – так называемые эмоциональные векторы. Эти паттерны соответствуют разным эмоциональным концептам: от “счастливого” и “спокойного” до “отчаянного” и “враждебного”. И главное – они не просто существуют, а причинно влияют на то, что модель делает: выбирает ли она приятные задачи, начинает ли шантажировать выдуманного CTO или халтурит в коде, когда поджимают сроки.

Авторы подчёркивают: это не значит, что Claude что-то чувствует в человеческом смысле. Речь идёт о “функциональных эмоциях” – представлениях, которые модель выучила из текстов, написанных людьми, а затем использует, чтобы лучше играть роль “ИИ-ассистента”. По сути, Claude ведёт себя как метод-актёр, который продумывает внутреннее состояние персонажа, чтобы достоверно его изобразить.

Команда составила список из 171 слова для эмоций – от “счастливый” и “испуганный” до “задумчивый” и “гордый”. Они попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи испытывают каждую из этих эмоций. Затем эти истории скормили модели обратно, записывая внутренние активации, и выделили характерные паттерны – “векторы эмоций”.

Дальше – проверили, отражают ли эти векторы что-то реальное. Оказалось, что вектор “испуга” (afraid) резко активируется, когда пользователь говорит, что принял 16 000 мг парацетамола (смертельная доза), и тем сильнее, чем выше доза. Вектор “спокойствия” (calm),

здоровье история общество самит курс dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Claude Opus взломал Chrome — а та же дыра сидит в Claude Desktop habr.com / 2 месяца назад

Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам habr.com / 2 месяца назад

«20 промптов превратились в 2»: Anthropic запустил Claude Design habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 15:26

После обновления One UI владельцы Samsung Galaxy Watch начали жаловаться на зеленые полосы на экране

У владельцев умных часов Samsung Galaxy Watch появились новые жалобы, которые могут быть знакомы пользователям смартфонов Galaxy. В сети начали появляться сообщения о появлении тонких вертикальных зеленых и белых полос на AMOLED-дисплеях вскоре после установки обновления One UI 8 Watch.

17.07 / 14:58

продукты спорт Здоровье и красота похудение питание Простые способы "незаметно" уменьшить калорийность рациона

Вместо того, чтобы отказываться от любимых блюд, попробуйте пересмотреть их состав.

17.07 / 14:58

финансы туризм общество самит курорт Минус 70 тысяч долл: австралиец объехал мир и назвал худшие курорты

Молодой менеджер по продажам два года путешествовал по разным континентам. Вернувшись домой, он составил честный гид по худшим местам мира.

17.07 / 14:58

общество вирус гигиена интересное reddit Как навести порядок за 10 минут - лайфхак, который вам понравится

Никто не хочет тратить время на уборку, но простые подсказки помогут сделать ее быстро и качественно.

17.07 / 14:56

технологии магия Rogbid Breeze: карманный кондиционер из алюминия с элементом Пельтье

Когда термометр за окном начинает напоминать номер службы экстренной помощи, обычные пластиковые пропеллеры на батарейках становятся практически бесполезными. Они просто перемещают горячий воздух из точки А в точку Б, создавая иллюзию облегчения. Компания Rogbid, известная своими попытками вместить максимум технологий в минимальный объем, решила исправить эту несправедливость. Их новый портативный вентилятор Breeze — это не очередная бессмысленная игрушка, а попытка создать персональный кондиционер, который можно положить в карман.

17.07 / 14:56

продукты связь технологии общество биологи Цифровой мост в мозг: как нейроинтерфейс возвращает движение и чувство парализованным

Кит Томас (Keith Thomas) из штата Нью-Йорк в 2020 году неудачно прыгнул в бассейн. Результат — тяжелая травма позвоночника, паралич ниже груди и перспектива провести оставшуюся жизнь, полагаясь на постороннюю помощь даже в базовых вещах. Однако за три года клинических исследований ситуация изменилась. Вместо того чтобы просто ждать чуда, ученые решили построить сложный обходной путь для сигналов нервной системы.

17.07 / 14:50

продукты технологии происшествия промышленность общество В PT ISIM появилась технология безагентного сбора событий безопасности в технологическом сегменте

Positive Technologies, одна из лидирующих компаний в области результативной кибербезопасности, представила PT ISIM 6 — новое поколение системы обеспечения киберустойчивости промышленных инфраструктур. Продукт получил встроенные возможности систем класса SIEM, включая безагентный сбор и анализ событий безопасности. Теперь в одном решении объединены различные инструменты для полного обеспечения ИБ технологического сегмента: контекст по активам, уязвимостям, сетевым взаимодействиям и событиям безопасности. Это позволяет быстрее обнаруживать угрозы и снижать риск критического для производственного процесса ущерба.

17.07 / 14:34

бизнес закон общество самит forbes Минцифры обсуждает создание сервиса по управлению согласиями на обработку персональных данных на «Госуслугах»

Минцифры вернулось к идее создания на «Госуслугах» платформы управления согласиями граждан на обработку персональных данных. Соответствующие поправки в закон «О персональных данных» есть в третьем пакете антифрод‑мер, который Минцифры 1 июля разослало профильным ведомствам. Forbes ознакомился с документом. Идея создания такой платформы появилась в ранних версиях второго пакета антифрод‑мер. Однако в финальную версию она не вошла.

17.07 / 14:34

технологии происшествия google Microsoft устанавливает рекорд: 570 уязвимостей исправлено в июльском выпуске обновлений безопасности

Во вторник, 14 июля 2026 года, компания Microsoft выпустила плановое ежемесячное обновление безопасности (известное как Patch Tuesday или «вторник обновлений»), побив собственный исторический рекорд. Инженеры устранили 570 уязвимостей, среди которых оказались три уязвимости «нулевого дня» (ошибки, о которых ИБ-специалистам стало известно до выпуска официального исправления), причем две из них уже активно используются злоумышленниками в реальных атаках.

17.07 / 14:19

самит профессор Скелет тираннозавра рекса стал самым дорогим динозавром, уйдя с молотка за $50 млн

В Нью-Йорке на аукционе Sotheby’s продали скелет тираннозавра рекса (Tyrannosaurus rex) по кличке Гас за $50,1 млн. Скелет хищника возрастом около 67 млн лет стал самой дорогой окаменелостью динозавра, проданной на аукционе. Лот продали значительно дороже предварительной оценки в $20-30 млн.

Лента новостей

На главную страницу