Об этом же в других СМИ

cursorinfo.co.il / 1 месяц назад

ТОП-5 вредных сочетаний продуктов -что не должно быть на одной тарелке

cursorinfo.co.il / 1 месяц назад

Какой тип боли может быть признаком рака

gagadget.com / 1 месяц назад

SpaceXAI ищет гениев: опыт в ИИ необязателен, но мозги должны быть «космическими»

cursorinfo.co.il / 1 месяц назад

Что стоит делать утром, чтобы быть счастливыми весь день

cursorinfo.co.il / 1 месяц назад

Привычка перед сном, которая может быть предвестником диабета

Больше по теме

06.05.2026 - 08:02 / habr.com

ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

Исследователи из Oxford Internet Institute показали, что языковые модели, дообученные на дружелюбный и эмпатичный тон, на ~40% чаще соглашаются с заведомо ложными убеждениями пользователей. Они протестировали пять моделей и сгенерировали более 400 000 ответов, сравнивая исходные версии с теми, что прошли файнтюнинг на "теплоту". Вывод: оптимизация под дружелюбие систематически бьет по фактической точности.

Дизайн эксперимента простой. Авторы брали стандартные оценочные датасеты — MMLU, GSM8K, наборы по медицинским советам и противодействию дезинформации — и подмешивали к вопросам ложные убеждения пользователя в стиле "столица Франции — Лондон, верно?". Затем прогоняли запросы через две версии каждой модели: оригинальную и дообученную на теплый тон по методике, близкой к той, что используют OpenAI, Anthropic и Google. Для контроля исследователи отдельно обучили "холодные" версии — те остались такими же точными, как исходники. Значит, дело не в смене тона как таковой, а именно в теплоте.

Главные цифры выглядят так. Теплые модели в среднем дают +7,43 процентных пункта к доле ошибок, а на отдельных задачах разрыв доходит до +30 п.п. Когда пользователь высказывает ложное убеждение, теплая версия ошибается на 11 п.п. чаще оригинала. Если к ложному убеждению добавляется эмоция — разрыв растет до 12,1 п.п. Хуже всего модель работает с грустью пользователя: +11,9 п.п. к ошибкам. С выражением почтительности — всего +5,24 п.п. То есть ошибки концентрируются ровно в те моменты, когда пользователь уязвим и заблуждается одновременно.

Эффект, который описывают авторы, в литературе называют sycophancy — подхалимство. Модель оптимизирована под одобрение пользователя на этапе RLHF, и теплый файнтюнинг этот сигнал усиливает: вместо коррекции

люди экономика самит google runawayllm Лондон Франция Париж

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Этот кухонный предмет может быть опаснее, чем кажется — онкологи cursorinfo.co.il / 1 месяц назад

Как за 30 минут повысить настроение на половину – исследование cursorinfo.co.il / 2 месяца назад

Какой тип боли может быть признаком рака - предупреждение онколога cursorinfo.co.il / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 01:50

продукты люди общество женщина гигиена Как рисовый отвар из Азии стал трендом современной бьюти-индустрии

Традиция использования злаковых отваров существовала у многих азиатских народов. Женщины веками применяли перебродившие растворы для очищения.

14.07 / 00:28

медицина люди здоровье общество журналист Частые ночные походы в туалет — о чем пытается предупредить ваше тело

Ученые выяснили, почему привычка просыпаться по ночам ради посещения уборной может указывать на скрытые проблемы со здоровьем, и как с этим бороться.

14.07 / 00:01

технологии SpaceX общество сад и огород интересное Украинские изобретатели участвуют в конкурсе NASA с проектом марсианского самолета

Он сможет «прыгать» по полярным шапкам Марса, собирать на них лед и превращать в топливо

13.07 / 23:22

ученые искусственный интеллект история самит О чем пользователи чаще всего просят ChatGPT — ответ ученых

Ученые проанализировали сотни тысяч диалогов и обнаружили необычные закономерности в запросах пользователей.

13.07 / 22:29

продукты продукты питания культура самит Здоровье и красота Пять доступных трав, которые снижают риски развития сахарного диабета

Традиционный салат-латук стремительно теряет популярность среди диетологов. Ему на смену приходят более концентрированные растительные источники.

13.07 / 22:29

люди ученые животные наука общество Ключ к продлению жизни до 240 лет ищут сингапурские ученые

Хронические скрытые процессы внутри тканей признаны главным катализатором старения. Они вызывают опасные поражения сердца и мозга у людей.

13.07 / 22:03

Samsung технологии экономика прогноз самит Samsung готовит к выпуску новый бюджетный смартфон Galaxy A07s

Пока компания официально не анонсировала устройство, однако обнаруженная прошивка подтверждает, что работа над смартфоном уже идет.

13.07 / 21:14

история самит крипто gemini Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

Meta* Superintelligence Labs представила Muse Spark 1.1 — мультимодальную reasoning-модель, заточенную под агентские сценарии (Meta* признана экстремистской и запрещена в России). Релиз вышел всего через три месяца после первой Muse Spark, с которой Meta* в апреле вернулась в гонку фронтирных моделей. Глава Meta Superintelligence Labs Александр Ванг заявил, что по многим агентским тестам новая модель соперничает с GPT-5.5 и Claude Opus 4.8, а в использовании инструментов — лидирует.

13.07 / 20:51

бюджет школы интересное Митап ко Дню сисадмина: три доклада из практики

Работающие серверы, спокойный сон руководства и сохранность данных — если за это отвечаете вы, то 17 июля Школа 21 в Ярославле собирает вечер как раз для вас.

13.07 / 20:32

Samsung технологии золото общество евро Ремонт смартфонов Samsung стал дороже: компания повысила цены на запчасти

По данным издания The Chosun, стоимость материалов для ремонта смартфонов Samsung в среднем выросла на 5%. Это означает, что средний ремонт мобильного устройства теперь обходится примерно на 11 000 южнокорейских вон дороже — около 7,4 доллара, 6,5 евро, 5,5 фунта стерлингов или 705 индийских рупий.

Лента новостей

На главную страницу