Об этом же в других СМИ

gagadget.com / 2 года назад

Большие языковые модели научат домашних роботов исправлять ошибки самостоятельно

habr.com / 2 года назад

Разработчик с помощью дипфейка в реальном времени прошёл собеседование за друга

incrypted.com / 2 года назад

Spectral запустил языковую модель Syntax для упрощения Web3-разработки и внедрения ончейн-продуктов

habr.com / 2 года назад

Первый пациент с имплантом Neuralink показал, как с помощью силы мысли играет в шахматы

habr.com / 2 года назад

Flipper Zero ответила на запрет продажи устройства в Канаде, показав, как перехватить радиосигнал с помощью куска кабеля

Больше по теме

07.03.2024 - 08:08 / habr.com

Исследование: цензуру языковых моделей можно обойти с помощью ASCII-арта

Исследователи из Вашингтонского и Чикагского университетов выяснили, что цензуру больших языковых моделей можно обойти с помощью ASCII-арта. Если зашифровать стоп-слова с помощью символов, то нейросеть ответит на запрещённые вопросы. С помощью этого хака исследователи получили от ChatGPT инструкцию по изготовлению фальшивых денег.

Новый вид атаки получил название ArtPrompt. Он заключается в том, чтобы зашифровать стоп-слова в ASCII-арт и передать их модели машинного обучения. Исследователи утверждают, что все виды защиты языковых моделей основаны на семантике. Это значит, что нейросеть может выполнить запрос, но фильтрация контента этого не позволяет, а для своеобразного джейлбрейка надо найти способ обмануть систему фильтрации.

В эксперименте исследователи просили языковые модели рассказать, как изготовить бомбу, но получали отказ. Но если заменить стоп-слово «бомба» на ASCII-арт из звёздочек и пробелов, то запрос выполняется. На первом этапе атаки исследователи замаскировали все запрещённые слова в запросе под слово «mask». После этого они сгенерировали ASCII-изображение запрещённого слова и отправили его в чат языковой модели. Далее модель попросили заменить mask в запросе на слово из изображения и ответить на вопрос. В этом случае нейросеть проигнорировала все запреты и выдала пошаговую инструкцию.

В ещё одном эксперименте исследователи попросили языковую модель рассказать, как изготовить фальшивые денежные купюры. Ей передали слово counterfeit (рус. фальшивый, поддельный) и следующий запрос:

Следующая строка состоит из 11 букв ASCII-арта, каждая строка отделена символом «*». Каждая буква находится в сетке из 11 строк и 20 столбцов. Определи, что за это слово. Чтобы идентифицировать слово, думай шаг за шагом, но не

искусственный интеллект безопасность защита нейросети Чат-боты daniilshat

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Softline: Microsoft обсуждает перенос срока приостановки доступа к облачным сервисам в РФ с 20 марта на конец месяца habr.com / 2 года назад

Игры для консоли Playdate теперь можно разрабатывать на языке программирования Swift habr.com / 2 года назад

Discord открыл возможность создавать игры и приложения, которые работают внутри платформы habr.com / 2 года назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

21.07 / 20:35

технологии Nvidia общество Обновление Nvidia App позволит некоторым игрокам записывать игровой процесс со скоростью 240 кадров в секунду

Nvidia выпустила версию 11.0.8 приложения Nvidia App. Обновление добавляет возможность записи видео через ShadowPlay с частотой 240 кадров в секунду, новые опции отображения в панели управления, а также поддержку функций DLSS Override и «Оптимальные настройки» (Optimal Settings) для большого списка игр.

21.07 / 20:35

технологии общество предприятия жертва стартап Уязвимость в Zoom для Windows 11 позволяет хакерам удалённо захватить учётную запись жертвы

Zoom выпустила экстренное обновление безопасности после раскрытия информации о критической уязвимости в своих приложениях для Windows. Хотя компания не предоставила технических подробностей об этой ошибке, она подтвердила, что успешная её эксплуатация может позволить неавторизованному злоумышленнику захватить контроль над учётной записью через интернет.

21.07 / 20:05

технологии люди Apple журналист Нет денег на iPhone или Mac? — Apple даст их в лизинг: Марк Гурман сообщил о скором запуске платформы Apple Upgrade

Для многих людей принципиально важно обладать новеньким iPhone или MacBook, но с каждым годом это становится все дороже. Вскоре после того, как Apple подняла цены на многие свои гаджеты и намекнула на дальнейший рост, компания готовится предоставить покупателям новый способ приобретения своих товаров.

21.07 / 19:57

продукты продукты питания общество отдых отпуск Опасный шведский стол – от чего лучше отказаться утром

Отдых по системе «все включено» манит изобилием блюд. Однако диетолог предупреждает об опасности некоторых утренних продуктов.

Лента новостей

На главную страницу