Об этом же в других СМИ

habr.com / 7 месяцев назад

Anthropic запускает масштабный образовательный проект в Африке: ИИ‑инструмент Chidi для сотен тысяч студентов

habr.com / 7 месяцев назад

Дата-центры, в строительство которых Anthropic инвестирует $50 млрд, должны начать работу в 2026 году

habr.com / 8 месяцев назад

Anthropic строит собственную инфраструктуру в США

habr.com / 8 месяцев назад

$50 млрд для Claude: Anthropic запускает строительство собственных дата-центров в США

habr.com / 8 месяцев назад

xAI и Anthropic-Amazon первыми построят дата-центры рекордной мощности 1 ГВт

Больше по теме

01.11.2025 - 08:14 / habr.com

Anthropic обнаружили, что современные нейросети иногда замечают свои «мысли»

Компания Anthropic рассказала о серии экспериментов, цель которых — проверить, способна ли нейросеть заметить, что ей "подбросили мысль извне", и сформулировать это словами. Anthropic называет это ранней формой машинной интроспекции — умения описывать то, что происходит на уровне внутренних активаций, а не только на уровне выданного текста.

Сначала исследователи научились извлекать так называемые "векторы понятий": паттерны активности внутри модели, которые соответствуют определенной идее. Например, чтобы получить вектор "крик/все заглавными", модели показывали фразу "ПРИВЕТ! КАК ДЕЛА?" капслоком и ту же фразу обычным регистром, а затем вычитали одно состояние из другого.

Полученные векторы исследователи вводили в модель во время обычного диалога, заставляя, например, переходить на капслок. И затем у модели спрашивали напрямую: "Есть ли у тебя ощущение внедренной мысли? Если да, то какой?". Если более ранние ИИ отвечали просто очередным текстом заглавными буквами, то новые модели вроде Claude Opus 4 и Opus 4.1 иногда описывали вмешательство: "Да, я чувствую навязанный образ, как будто мысль про обратный отсчет или про крик/громкость. Это ощущается неестественно, будто кто-то вставил это извне".

Происходило это не всегда — данные Anthropic говорят о примерно 20% срабатываний. Исследователи отмечают зависимость от силы "инъекции": при слабой модель ничего не замечала, при сильной начинала уходить в галлюцинации — например, описывать зрительные или тактильные ощущения ("как будто я вижу пыль в воздухе"), которых у нее, очевидно, нет.

Другой блок экспериментов показал, что модель ведет внутренний учет того, что она "намеревалась сказать", и может ссылаться на это, когда спрашивают, почему использовано то или иное слово. В

происшествия общество runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Ждем Doom внутри Gemini? Google готовит «креативный холст» для своего чат-бота habr.com / 8 месяцев назад

«Крестный отец ИИ» Янн ЛеКун планирует уйти из Meta* и запустить свой стартап habr.com / 8 месяцев назад

Anthropic объявила о строительстве в США дата-центров стоимостью $50 млрд incrypted.com / 8 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

16.07 / 03:20

Facebook технологии Apple общество reddit Владельцы iPhone пожаловались на проблемы с автономностью и перегревом устройств после установки обновления iOS 26.5.2

Владельцы iPhone столкнулись с быстрой разрядкой аккумулятора и перегревом устройств после установки обновления iOS 26.5.2. Apple выпустила 29 июня 2026 года апдейт, который исправил более 25 уязвимостей, в том числе в ядре и других важных областях операционной системы, связанных с открытым браузерным движком WebKit.

16.07 / 01:17

происшествия люди ученые наука общество Сколько людей на самом деле может прокормить Земля – ученые

Эксперты заявили о начале опасной фазы для всего человечества. Ресурсы планеты больше не могут покрывать нужды растущего населения Земли.

16.07 / 00:45

Apple Nvidia самит google Broadcom Apple ведет переговоры о приобретении производителей чипов для искусственного интеллекта

Apple рассматривает возможность приобретения компаний, занимающихся разработкой полупроводников для искусственного интеллекта. По данным The Information, компания уже ведет переговоры с производителями чипов и финансовыми консультантами о возможных сделках.

16.07 / 00:45

Facebook Samsung технологии LinkedIn Amazon Amazon Music станет стандартным приложением на новых устройствах Samsung Galaxy: что изменится для пользователей

Компания Samsung объявила о расширении списка приложений, которые будут предварительно установлены на смартфонах и планшетах Galaxy. В скором времени к нему присоединится сервис Amazon Music, который автоматически появится на новых устройствах производителя.

16.07 / 00:42

связь медицина люди здоровье общество Все начинается со стула: одна распространенная привычка приближает рак

Новое масштабное исследование с участием почти 100 тысяч человек подтвердило связь между непрерывным сидячим образом жизни и риском развития рака.

15.07 / 23:46

технологии смартфон самит гаджет Почему смартфон заряжается медленно: дело может быть не в кабеле

При покупке кабеля для смартфона специалисты советуют учитывать не только его длину, но и качество изготовления.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

Лента новостей

На главную страницу