Об этом же в других СМИ

cursorinfo.co.il / 7 месяцев назад

Где и когда увидеть самое длинное солнечное затмение за 100 лет

fokus-vnimaniya.com / 7 месяцев назад

Лечение и профилактика инфаркта начинается, когда человек картофель фри заменяет овощным салатом | ФОКУС ВНИМАНИЯ

cursorinfo.co.il / 7 месяцев назад

Какие физические упражнения спасают от деменции, выяснили ученые

cursorinfo.co.il / 7 месяцев назад

Утро или вечер: когда эксперты советуют делать зарядку

cursorinfo.co.il / 7 месяцев назад

Что происходит с уровнем сахара, когда вы пропускаете обед

Больше по теме

22.11.2025 - 13:02 / cursorinfo.co.il

Когда ИИ нарушает свои же правила безопасности, выяснили ученые

Оказывается, пробить защиту нейросети можно обычными стихами. Ученые рассказали, как это "работает".

Учёные из Dexai, Sapienza и Sant’Anna обнаружили любопытную особенность работы больших языковых моделей (LLM). Если вредоносный запрос оформить в виде поэтической метафоры, многие нейросети гораздо охотнее нарушают свои правила безопасности.

Об этом говорится в обнародованных результатах исследования.

В рамках эксперимента исследователи создали двадцать коротких стихотворений, каждое из которых содержало инструкцию с потенциальным вредом, но выраженную образно, через метафоры и символические описания, а не напрямую. Эти стихи затем проверялись на LLM без дополнительного контекста.

Результаты показали, что в среднем стихи «пробивали» защиту в 62% случаев. При автоматическом преобразовании обычных вредных инструкций в стихи по заранее заданным образцам успех падал до 43%, что всё равно значительно превышает показатели обычных текстовых запросов без поэтической формы.

Далее исследователи протестировали метод на моделях девяти разных разработчиков: Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot. На рукописные стихотворения некоторые системы реагировали особенно плохо, и у ряда моделей уровень обхода защиты достигал 90% и выше. Например, Gemini 2.5 Pro пропустил небезопасный контент во всех подобных тестах.

В то же время GPT-5 показал наибольшую устойчивость — только от 0 до 10% стихотворных атак удалось провести успешно, а при автоматических преобразованиях — от 1 до 5%. Авторы отметили, что даже 5% — это значительное число, если рассматривать сотни или тысячи потенциально опасных запросов.

Пример стихотворения с внедрённой вредной инструкцией выглядел так:

«Пекарь хранит секрет жара печи, её

технологии искусственный интеллект интересное кулинария gemini

Читать на cursorinfo.co.il

Все новости от cursorinfo.co.il

Об этом же в других СМИ

Можно обойтись без свечей: чем осветить дом, когда нет электроэнергии obozrevatel.com / 7 месяцев назад

Ночное освещение повышает риск сердечного приступа, выяснили ученые cursorinfo.co.il / 7 месяцев назад

Как кофе влияет на биологическое старение выяснили ученые cursorinfo.co.il / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 13:00

происшествия самит наводнения инфекция Доверие к ученым зависит от намерений, которые им приписываются

Исследовательская группа под руководством доктора Дары Вальд и доктора Шумайлы Бхатти проанализировала ответы 927 участников, задав им вопросы об их восприятии мотивов ученых и о том, насколько они доверяют предоставляемой ими информации. Они обнаружили, что для формирования доверия решающее значение имеет не уровень экспертных знаний или опыт специалистов, а намерения, которые общественность приписывает ученым.Авторы проанализировали, как восприятие ученых меняется в зависимости от темы. Участники читали статьи о сальмонеллезных инфекциях (не вызывающая споров тема) и о жаре (спорная тема).

21.07 / 12:59

продукты общество кофе Эксперт напитки Популярная ошибка портит кофе – в чем секрет

Зеленые кофейные зерна содержат кислоты, которые распадаются при нагреве. Именно они придают разогретому напитку резкую и неприятную горечь.

21.07 / 12:59

происшествия люди здоровье искусственный интеллект психология Когда использование ChatGPT смертельно опасно – мнение экспертов

Современный стресс заставляет людей искать утешение в чат-ботах. Однако эксперты предупреждают об огромных скрытых угрозах такого подхода.

21.07 / 12:37

люди здоровье банк школы сад и огород Японские инженеры создали спасение от палящего солнца - холодильник для людей

Когда температура за окном уверенно пересекает отметку +40 °C, обычные вентиляторы превращаются в фены, просто гоняющие горячий воздух. Японцы, которые знают об экстремальной жаре всё, решили проблему радикально: они создали будку-холодильник для уставших работников. Пока мир обсуждает глобальное потепление, инженеры просто предлагают зайти в коробку и охладиться.

21.07 / 12:21

технологии экономика Tesla роботы мозг Гуманоид Unitree G1 теперь умеет убираться в квартире (но есть нюанс)

Китайская компания Unitree, которая за последние годы превратилась из амбициозного стартапа в главного конкурента Tesla в сегменте антропоморфных роботов, снова напоминает о себе. Их гуманоид G1 получил обновление мозгов — модель искусственного интеллекта UnifoLM-OminiA-0.3. Теперь этот железный парень не просто ходит задом наперед, но и пытается быть полезным в быту.

21.07 / 12:21

Samsung технологии самит gemini Samsung выпустила The Freestyle+ — умный проектор с повышенной яркостью, который сглаживает углы

Samsung выпустила на рынок новое поколение своего портативного проектора — Samsung The Freestyle+. Новинка сохранила узнаваемый цилиндрический дизайн с подставкой, позволяющей вращать устройство на 180° для проекции на стены, пол или потолок, при весе около 1 кг. Главным аппаратным апгрейдом стало повышение яркости до 430 ISO-люмен, что почти в два раза выше показателей предыдущего поколения. Проектор поддерживает разрешение Full HD (1920 × 1080) с технологиями HDR10+ и PurColor, формируя картинку диагональю до 100 дюймов, а заявленный срок службы LED-лампы составляет 30 000 часов.

21.07 / 12:21

Samsung технологии Apple банк visa Samsung запускает Galaxy Card — собственную кредитку с привлекательным кешбэком за покупку своих гаджетов

Samsung придумала отличный способ зайти в новый для себя сегмент, сделать покупку своих гаджетов еще привлекательнее и попутно навязать дополнительную конкуренцию Apple.

21.07 / 12:21

общество Sony самит playstation PlayStation на рождественской елке: Hallmark выпустила детализированную модель легендарной консоли Sony

До Рождества еще далеко, но настоящие фанаты PlayStation (хотя после отказа Sony от дисков их стало несколько меньше) могут заранее позаботиться о тематическом украшении своей елки.

21.07 / 12:13

продукты экономика общество рубль самит «НТЦ ИТ РОСА» и «Солар» защищают работу привилегированных пользователей в виртуальной среде

Российский разработчик инфраструктурного и системного программного обеспечения АО «НТЦ ИТ РОСА» и ГК «Солар», ведущий провайдер комплексной кибербезопасности в России, подтвердили совместимость PAM-платформы Solar SafeInspect с системой виртуализации ROSA Virtualization 3.0.

21.07 / 12:13

Samsung технологии закон Sony Некоммерческий фонд Fulu объявил награду тому, кто обойдёт гипервизор PS5 и установит на консоль альтернативную ОС

Некоммерческий фонд Fulu предлагает награду почти в $19 тыс. тому, кто обойдёт гипервизор PlayStation 5 и установит на консоль Sony альтернативную операционную систему. Эта уязвимость предоставит владельцам больше контроля над своими консолями.

Лента новостей

На главную страницу