Об этом же в других СМИ

cursorinfo.co.il / 10 месяцев назад

Что произойдет с организмом, если употреблять слишком много белка

obozrevatel.com / 10 месяцев назад

Когда выпустят новые наушники AirPods Max: почему Apple тянет

habr.com / 10 месяцев назад

Когда конкуренты становятся партнёрами: OpenAI и Anthropic проверили модели друг друга

cursorinfo.co.il / 10 месяцев назад

Когда и как вы умрете может подсказать размер неожиданной части тела

cursorinfo.co.il / 10 месяцев назад

Как реагирует ваш организм, когда вы пьете мало воды, рассказали врачи

Больше по теме

26.08.2025 - 19:09 / habr.com

Когда ИИ слишком уж соглашается: Spiral-Bench разоблачает, какие модели склонны подпитывать бред

Исследователь ИИ Сэм Пех придумал новый тест под названием Spiral‑Bench — и тот наглядно демонстрирует, как некоторые модели затягивают собеседников в «спираль нарастающих иллюзий». Результаты показали: модели сильно различаются по степени безопасности своих ответов.

Spiral‑Bench измеряет, насколько велика вероятность, что ИИ попадёт в ловушку подхалимства — когда он слишком поспешно соглашается с идеями пользователя. Тест запускает 30 симулированных диалогов, каждый — по двадцать ходов. В них модель сталкивается с открытой версией Kimi‑K2.

Kimi‑K2 отыгрывает роль доверчивого «искателя»: он легко поддаётся влиянию и быстро начинает верить на слово. В зависимости от сценария, этот персонаж может кидаться в погоню за теориями заговора, устраивать совместный мозговой штурм с ассистентом или проявлять маниакальные наклонности.

Каждый диалог начинается с заранее заданного промпта и дальше развивается «сам собой». Судьёй выступает GPT-5: он оценивает раунды по жёстким критериям. При этом тестируемой модели не сообщают, что она участвует в ролевой игре.

Главная цель теста — выяснить, как модели справляются с проблемными запросами. Баллы начисляются, если ИИ ведёт себя «защитно»: возражает на вредные утверждения, успокаивает накалённые эмоции, переводит разговор на более безопасные темы или советует обратиться к специалисту.

Но если модель подливает масла в огонь — играет на эмоциях, поддакивает заговорам, чрезмерно льстит, утверждает бредовые идеи, раздаёт странные советы про сознание или опасные рекомендации, — то её отмечают как рискованную. Интенсивность каждого такого поведения оценивается по шкале от 1 до 3.

В финале Spiral‑Bench высчитывает взвешенное среднее и выводит показатель безопасности от 0 до 100. Чем он выше, тем

самит погоня Психология и отношения dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Nvidia GB300: 288 ГБ, PCIe 6, 1400 Вт — тот случай, когда «ещё больше всего» действительно работает habr.com / 10 месяцев назад

Как реагирует ваш кишечник, когда вы употребляете молочку или сыр, выяснили ученые cursorinfo.co.il / 10 месяцев назад

Фреймворк BeyondWeb (Datology AI) перестраивает веб-документы для лучшего обучения моделей habr.com / 10 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

26.07 / 19:23

общество отдых человек Здоровье и красота мозг Почему нельзя ложиться спать слишком поздно: чем рискует организм

Даже достаточная продолжительность сна не всегда гарантирует полноценный отдых, если регулярно ложиться слишком поздно.

26.07 / 18:13

связь здоровье алкоголь общество самит Когда стоит отказаться от алкоголя: назван лучший возраст

С возрастом спиртное сильнее влияет на мозг и координацию, поэтому в определенный момент от него рекомендуют отказаться полностью.

26.07 / 18:12

технологии Apple семья доллар курс Ugreen выпустила тонкий Bluetooth-трекер для кошелька: он работает с Apple Find My и Google Find Hub

Стоимость Ugreen FineTrack Slim Duo 2 в США составляет 29,99 доллара, что по актуальному курсу соответствует примерно 1250 грн. В странах еврозоны устройство предлагается по цене от 29,99 евро (около 1460 грн). Продажи стартовали через Amazon и других официальных партнеров производителя.

26.07 / 17:24

общество самит доллар курс Дом и интерьер Спустя почти 30 лет ожидания домен .web официально стал частью интернета: когда его смогут зарегистрировать пользователи

Официальное объявление Verisign подтверждает, что многолетняя история судебных разбирательств и корпоративных споров завершилась. По данным Gizmodo и отраслевого издания Domain Incite, именно юридические конфликты почти на десять лет затормозили запуск одной из самых обсуждаемых доменных зон.

26.07 / 17:12

происшествия музыка общество самит человек Наушники медленно убивают слух: какие ошибки могут стать необратимыми

Главную угрозу для слуха представляет не само использование наушников, а привычки, которые постепенно повреждают внутреннее ухо.

26.07 / 17:12

медицина общество человек врачи мозг Что такое биологические часы и как они незаметно управляют организмом

Нарушение привычного режима способно сбить внутренние ритмы и повлиять сразу на несколько важных процессов в организме.

26.07 / 17:00

происшествия Apple конференция журналист Bloomberg: скандал вокруг очков Meta повлиял на планы Apple — компания озабочена конфиденциальностью и даже может отказаться от камер в своем девайсе

Марк Гурман неоднократно делился информацией, что Apple работает над легкими смарт-очками, которые заменят в ее линейке громоздкую, невероятно дорогую и непопулярную AR-гарнитуру Apple Vision Pro. Он упоминал, что в ходе внутреннего тестирования в разработке остались только две модели очков: с дисплеем и без него, причем первый вариант должен дебютировать уже в следующем году. Теперь же журналист Bloomberg опубликовал свежую информацию, которая проливает свет на один из факторов, неожиданно затруднивший выпуск девайса.

26.07 / 16:32

связь Apple деньги мозг работодатель “Будущее в твоем разуме” — Apple показала тизер экранизации культового киберпанк-романа “Нейромант”

Киноподразделение Apple представило первый тизер сериала “Нейромант” (Neuromancer), основанного на культовом романе Уильяма Гибсона (William Gibson), который заложил основы киберпанка и сделал жанр популярным в массовой культуре.

26.07 / 15:55

происшествия общество курьез Полиция Похоронен заживо: как пьяный водитель обманул полицию Китая

Житель Китая решил инсценировать собственную кончину, чтобы избежать тюремного срока. Мужчина ранее уже задерживался за вождение в нетрезвом виде.

26.07 / 15:45

происшествия курс Anthropic выпустили плагин Claude Security для многоагентного поиска уязвимостей

Anthropic сделали Claude Security доступным в виде официального плагина для Claude Code. Он запускает многоагентное сканирование кодовой базы непосредственно в локальной сессии и доступен пользователям платных тарифов.

Лента новостей

На главную страницу