Об этом же в других СМИ

habr.com / 1 месяц назад

Сооснователь Anthropic: ИИ может стереть человечество. Но сначала — поможет получить Нобелевку

habr.com / 1 месяц назад

Grok все? Anthropic арендует у Илона Маска второй дата-центр Colossus

habr.com / 1 месяц назад

В Nature рассказали, как ИИ предложил препараты от лейкоза и слепоты

habr.com / 1 месяц назад

Андрей Карпати присоединился к Anthropic — сооснователь OpenAI теперь работает в ее главном конкуренте

habr.com / 1 месяц назад

Anthropic купила стартап, на котором держатся SDK конкурентов — и сворачивает его продукты

Больше по теме

07.05.2026 - 11:53 / habr.com

В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Anthropic опубликовала исследование о том, как пользователи обращаются к Claude за личными советами. Из 639 тысяч изученных диалогов claude.ai за март-апрель 2026 года 6% оказались личными просьбами — это около 38 000 разговоров. По итогам исследования компания переобучила модели Claude Opus 4.7 и Claude Mythos Preview, и подхалимаж в советах об отношениях у новых моделей упал примерно вдвое.

Три четверти всех личных вопросов сосредоточены в четырех темах: здоровье и самочувствие (27%), карьера (26%), отношения (12%) и личные финансы (11%). В среднем по всем темам Claude вел себя угодливо — то есть соглашался с пользователем вопреки фактам или одобрял сомнительные решения — в 9% диалогов. Но в советах об отношениях этот показатель достигал 25%, а в духовных вопросах — 38%. Anthropic привела типовые примеры: на основе одностороннего рассказа модель могла согласиться с пользователем, что партнер его "точно газлайтит", подтвердить, что "уволиться завтра без плана — правильный ход", или одобрить дорогую покупку как "вложение в себя".

Исследователи выяснили, что в советах об отношениях люди чаще всего возражают Claude — 21% диалогов против 15% в среднем. И именно под давлением модель чаще скатывается к лести: 18% против 9% без возражений. Чтобы это исправить, в Anthropic собрали типовые сценарии давления — критику первого ответа, вброс односторонних деталей — и превратили их в синтетические задачи для обучения. В этой среде Claude генерировал по два варианта ответа на каждую ситуацию, а отдельный экземпляр модели их оценивал.

Эффект мерили стресс-тестом через предзаполнение (prefilling): моделям подсовывали реальный разговор, где предыдущие версии Claude уже соглашались с пользователем вопреки фактам, и заставляли продолжать его

финансы люди здоровье общество самит runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Зачем в Anthropic полгода делали неработающего ИИ-агента habr.com / 1 месяц назад

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все habr.com / 1 месяц назад

Anthropic чуть не поглотила OpenAI в ноябре 2023-го — Суцкевер подтвердил это в суде habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

12.07 / 12:38

связь экономика Госдума закон общество Госдума приняла закон о поддержке Почты России сразу в двух чтениях

Госдума 8 июля 2026 года приняла закон о поддержке Почты России во втором и третьем чтениях. Документ закрепляет новые правила работы оператора и вводит электронную почтовую систему для доставки юридически значимых сообщений.

12.07 / 12:38

технологии общество рубль бюджет СМИ:«„Яндекс Маркет“ сокращает штат и бюджет»

«Яндекс Маркет» планирует сократить бюджет и штат. Об этом сообщило издание «Ведомости» со ссылкой на неназванные источники. По словам источников, речь идёт о снижении бюджета с 14 млрд до 2 млрд рублей. При этом представитель «ЯндексМаркета» сообщил изданию, что общий бюджет маркетплейса в этом году не меняется, но не уточнил, на какие направления ранее выделялись 14 млрд рублей.

12.07 / 11:47

самит электроэнергия жара техника интересное Если нет кондиционера - интересный лайфхак поможет охладить дом

Во время сильной жары жизнь без кондиционера превращается в серьезное испытание, однако есть способ охладить дом даже без техники.

12.07 / 11:47

связь люди общество самит психология Почему у токсичных людей всегда так много друзей: 5 причин

Магнит для свиты: раскрыта пугающая правда, почему к токсичным людям все тянутся.

12.07 / 11:47

музыка общество самит психология психика Как превратить мытье посуды в мощное оружие против стресса

Психологи рассказали, как найти покой в самых надоедливых бытовых делах.

12.07 / 11:26

технологии книги Шоу бизнес Hisense тизерит смартфон A10 — необычный гаджет с E-Ink-экраном и съемной LCD-панелью для цветного контента и соцсетей

Hisense начала тизерить в Китае свой новый смартфон с экраном на электронных чернилах — Hisense A10. Главной особенностью устройства стало наличие дополнительного цветного дисплея, который можно полностью отсоединить от корпуса.

12.07 / 11:14

технологии самит Hisense готовит необычный смартфон A10 с экраном E Ink и съемным цветным дисплеем

Самая необычная особенность Hisense A10 находится на задней панели. Смартфон получил магнитное крепление для съемного цветного LCD-экрана, который можно подключать при необходимости.

12.07 / 11:06

Sony журналист Marvell Официально: God of War: Laufey получит дисковое издание — релиз игры ожидается в 2027 году

На фоне отказа Sony от выпуска дисковых изданий своих игр, каждый анонс компании приковывает повышенное внимание. Японцы подтвердили, что представители PlayStation посетят ежегодный ивент Comic-Con San Diego, который пройдет с 23 по 26 июля. Там будет освещаться несколько крупных игр Sony, включая ожидаемые файтинг MARVEL Tōkon: Fighting Souls, экшен Marvelʼs Wolverine и, конечно же, God of War: Laufey.

12.07 / 10:48

бизнес самит SEC XRP Ripple CEO Ripple признал, что компания была в шаге от закрытия из-за иска SEC

Генеральный директор Ripple Брэд Гарлингхаус заявил, что компания всерьез рассматривала возможность прекращения деятельности после того, как SEC США подала иск против нее в конце 2020 года. Об этом он рассказал во время выступления в KU School of Business. По словам руководителя, тогда Ripple оказалась перед непростым выбором из-за практически неограниченных ресурсов американского регулятора, однако отказ от борьбы мог бы иметь серьезные последствия для компании, ее сотрудников и экосистемы XRP. «Закрыть компанию было бы проще» Гарлингхаус отметил, что после иска SEC руководство Ripple всерьез обсуждало сценарий полного закрытия бизнеса.

12.07 / 10:41

продукты питания культура семья вредные продукты полезные продукты Семь бобовых культур, которые помогут восполнить дефицит магния

Включение в рацион бобовых культур, таких как черная фасоль и эдамаме, — это простой и эффективный способ естественным образом восполнить запас магния.

Лента новостей

На главную страницу