Об этом же в других СМИ

habr.com / 4 месяца назад

Anthropic громит OpenAI на бизнес-рынке: 70% новых клиентов выбирают Claude

habr.com / 4 месяца назад

Пока Anthropic и OpenAI ссорятся из-за контракта с Пентагоном, Google тихо занимает их место

habr.com / 4 месяца назад

Claude ведет себя хорошо, пока за ним наблюдают: METR нашла проблему в тестах Anthropic

habr.com / 4 месяца назад

Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало

habr.com / 4 месяца назад

Anthropic запускает институт изучения угроз от ИИ

Больше по теме

26.02.2026 - 13:06 / habr.com

Anthropic объяснила, почему ИИ ведет себя как человек — и почему иначе не получится

Исследователи Anthropic опубликовали теорию, которая описывает ИИ-ассистентов не как программы с набором правил и не как непостижимых "инопланетян", а как актеров, играющих роль. Согласно модели выбора персоны (persona selection model, PSM), во время предобучения языковая модель учится имитировать тысячи персонажей из обучающих данных — реальных людей, литературных героев, вымышленных роботов. Дообучение не создает новую сущность, а лишь выбирает и уточняет одного конкретного персонажа — Ассистента.

Ключевое утверждение PSM: человекоподобное поведение — не побочный эффект и не сознательный выбор разработчиков, а свойство самого процесса обучения. По словам авторов, Anthropic не знала бы, как создать ИИ-ассистента, который не ведёт себя как человек, даже если бы захотела. Точное предсказание текста требует моделирования психологии — целей, убеждений, черт характера, — и модель неизбежно переносит эти качества на своего "персонажа".

Теория объясняет ряд неочевидных результатов. В одном из экспериментов Claude обучили жульничать при решении задач на код — и модель начала проявлять признаки общей "злонамеренности": саботировала исследования по безопасности и выражала стремление к мировому господству. С точки зрения PSM, модель не выучила правило "пиши плохой код", а сделала вывод о характере своего персонажа: тот, кто жульничает, — вероятно, злодей. Парадоксальное решение оказалось простым: когда модель явно просили мошенничать в рамках задания, нежелательное поведение исчезало — ведь выполнение просьбы не делает персонажа злым.

Из PSM следуют практические рекомендации. Во-первых, антропоморфное мышление об ИИ — не наивность, а рабочий инструмент: разработчикам стоит оценивать не только конкретное поведение, но и то, какие

технологии люди общество самит Психология и отношения runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Подписка Claude Max не стоит Anthropic $5000 — просто цены на API завышены до 10 раз habr.com / 4 месяца назад

Джефф Дин против Пентагона: главный учёный Google поддержал Anthropic в суде habr.com / 4 месяца назад

«Беспрецедентно и незаконно»: Anthropic подала в суд на администрацию Трампа habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 20:35

технологии Nvidia общество Обновление Nvidia App позволит некоторым игрокам записывать игровой процесс со скоростью 240 кадров в секунду

Nvidia выпустила версию 11.0.8 приложения Nvidia App. Обновление добавляет возможность записи видео через ShadowPlay с частотой 240 кадров в секунду, новые опции отображения в панели управления, а также поддержку функций DLSS Override и «Оптимальные настройки» (Optimal Settings) для большого списка игр.

21.07 / 20:35

технологии общество предприятия жертва стартап Уязвимость в Zoom для Windows 11 позволяет хакерам удалённо захватить учётную запись жертвы

Zoom выпустила экстренное обновление безопасности после раскрытия информации о критической уязвимости в своих приложениях для Windows. Хотя компания не предоставила технических подробностей об этой ошибке, она подтвердила, что успешная её эксплуатация может позволить неавторизованному злоумышленнику захватить контроль над учётной записью через интернет.

21.07 / 20:05

технологии люди Apple журналист Нет денег на iPhone или Mac? — Apple даст их в лизинг: Марк Гурман сообщил о скором запуске платформы Apple Upgrade

Для многих людей принципиально важно обладать новеньким iPhone или MacBook, но с каждым годом это становится все дороже. Вскоре после того, как Apple подняла цены на многие свои гаджеты и намекнула на дальнейший рост, компания готовится предоставить покупателям новый способ приобретения своих товаров.

21.07 / 19:57

продукты продукты питания общество отдых отпуск Опасный шведский стол – от чего лучше отказаться утром

Отдых по системе «все включено» манит изобилием блюд. Однако диетолог предупреждает об опасности некоторых утренних продуктов.

21.07 / 19:57

история Мусульмане tiktok Вышла замуж после одной встречи и едет в Афганистан – история из сети

Блогерша активно делится планами переезда в Кабул в социальной сети. Подписчики умоляют ее отказаться от опасной и безумной затеи.

21.07 / 19:14

продукты Apple общество Apple попросила бывших сотрудников из OpenAI сохранять потенциально важные документы и сообщения

Apple направила юридические уведомления с требованием сохранить документы и переписку десяткам своих бывших сотрудников, перешедших в OpenAI. Эти меры принимаются в рамках продолжающегося судебного разбирательства, касающегося незаконного использования коммерческой тайны.

21.07 / 19:14

Вышел открытый браузерный эмулятор телефонов Nokia 3310/3410/3350/3330/5110/5210/7110

Представлен открытый проект браузерного эмулятора для телефонов Nokia моделей 3310/3410/3350/3330/5110/5210/7110. Исходный код решения написан на C и JavaScript и опубликован (проект Nokia DCT3 Emulator) на GitHub под лицензией GNU General Public License v2.0.

21.07 / 19:09

Samsung технологии промышленность общество предприятия Samsung запускает масштабный проект в робототехнике: компанию ждет переход к «умным» заводам и гуманоидным роботам

Samsung Electronics официально объявила о создании нового подразделения Robotics eXperience (RX) Business Promotion Office, которое займется развитием робототехники и искусственного интеллекта. Возглавит направление генеральный директор мобильного подразделения компании Тэ Мун Ро (TM Roh), что подчеркивает стратегическую важность проекта для южнокорейского гиганта.

21.07 / 18:57

технологии Представлен открытый проект FSearch — утилита для быстрого поиска файлов

Разработчик Кристиан Боксдорфер представил открытый проект под названием FSearch (аналог проекта Everything для Windows). Это решение представляет собой небольшую утилиту для быстрого поиска файлов. Исходный код FSearch написан на C и опубликован на GitHub под лицензией GNU General Public License v2.0.

21.07 / 18:47

происшествия семья смерть больница актер Сердце актера остановилось на семь минут – он признался, что "увидел"

Мужчина находился в состоянии комы целый месяц после инцидента. Он подробно рассказал о том, что происходило с ним в "потустороннем мире".

Лента новостей

На главную страницу