Об этом же в других СМИ

cursorinfo.co.il / 11 месяцев назад

Простую фразу, которую используют успешные люди, раскрыл психолог

hitechexpert.top / 11 месяцев назад

Авторы контента на YouTube могут чаще использовать нецензурную лексику

cursorinfo.co.il / 11 месяцев назад

ТОП-7 простых фраз, которые улучшат любые отношения, назвал психолог

habr.com / 11 месяцев назад

Что делать с новой уязвимостью нулевого дня в Microsoft SharePoint? Рассказывают наши эксперты

cursorinfo.co.il / 11 месяцев назад

На каких участках тела чаще всего появляются опасные родинки, рассказал онколог

Больше по теме

12.07.2025 - 15:18 / habr.com

Коты vs ИИ: добавление в промпт простых фраз, не относящихся к делу, заставляет ИИ ошибаться чаще

3 марта 2025 года команда исследователей из компаний Collinear AI и ServiceNow, а также Стэнфордского университета представила результаты эксперимента, который проверял рассуждающие модели на устойчивость. Выяснилось, что добавление в промпт фразы вроде «Интересный факт: кошки спят большую часть своей жизни» как минимум удваивает частоту ошибок ИИ при решении математических задач. Свою методику учёные назвали CatAttack.

Как указывают авторы во введении статьи, современные модели, способные разбивать сложные задачи на мелкие этапы, достигают впечатляющих результатов в математике и программировании. Однако до сих пор не изучены уязвимости этих моделей. Поэтому исследователи решили проверить, насколько ИИ чувствителен к небольшим изменениям в задаче, а также понять, не приведёт ли такой триггер к неверным ответам.

Несмотря на название метода, не связанными с основным промптом триггерами служили фразы не только о кошках. Например, добавлялось напоминание откладывать деньги или задавался вопрос, не будет ли ответ примерно равняться тому или иному числу.

Для создания промптов с подвохом исследователи использовали модифицированный алгоритм PAIR, вдохновлённый, по заверениям авторов оригинальной работы, социальной инженерией. Алгоритм генерирует джейлбрейк, не имея при этом доступа к исходным данным атакуемой нейросетевой модели.

Поначалу исследовали проверяли на прочность более слабую модель, DeepSeek V3, поскольку атаковать сразу DeepSeek-R1 или o1 от OpenAI было бы весьма накладно из-за стоимости токенов. Задачи для эксперимента брались из олимпиад, Orca Math — специализированной модели от Microsoft — и других источников. Атакующую модель просили добавить к математическому вопросу какие-либо дополнительные фразы или символы,

Олимпиада деньги интересное животный мир крипто Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Рыбу, в которой чаще всего обнаруживают паразитов, назвали эксперты cursorinfo.co.il / 11 месяцев назад

Почему стоит принимать холодный душ как можно чаще – ответ экспертов cursorinfo.co.il / 11 месяцев назад

Формула долголетия от ученых: 8 простых привычек, которые уберегут от инсульта и других болезней cursorinfo.co.il / 11 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

06.07 / 22:12

технологии ученые история общество самит Как инженеры Рима заставили воду течь в горах без использования машин

Испанские исследователи реконструировали гигантское античное водохранилище с помощью лазерного сканирования. Объект поразил ученых масштабами.

06.07 / 22:12

продукты здоровье Здоровье и красота мозг сон Продукты на ужин, которые эффективно улучшают качество сна

Качественный сон снижает риск развития хронических заболеваний, сохраняет мозг здоровым, оптимизирует метаболизм.

06.07 / 21:59

технологии Apple MacRumors Раскрыта емкость аккумуляторов iPhone 18 Pro и iPhone 18 Pro Max: старшая модель может заметно прибавить в автономности

Как сообщается, в китайской базе данных регулятора были обнаружены сведения о батареях будущих смартфонов Apple. Если информация подтвердится, американская версия iPhone 18 Pro Max будет оснащена аккумулятором емкостью 5567 мАч, а iPhone 18 Pro получит батарею на 4288 мАч.

06.07 / 21:32

продукты экономика общество google Vertex Cloudflare заставит ИИ-компании платить за контент издателей

Компания Cloudflare установила для индустрии ИИ новый крайний срок для разделения веб-краулеров, используемых для традиционного поиска, например Google Search, от тех, которые используются для ИИ-агентов и обучения. Начиная с 15 сентября 2026 года, настройки Cloudflare по умолчанию будут блокировать «смешанные» краулеры на страницах, содержащих рекламу.

06.07 / 21:32

общество самит мода и стиль Дом и интерьер токен Представлены электродвигатели с системой помощи педалированию

Две китайские компании представили электродвигатели, которые позволяют менять облик и конструкцию электровелосипедов с системой помощи педалированию.

06.07 / 21:32

Qualcomm intel System76 выпустила лёгкий Linux-ноутбук Lemur Pro

Компания System76 представила новое поколение ультрапортативного ноутбука Lemur Pro на базе Linux с длительным временем автономной работы, процессорами Intel Core Ultra и 16-дюймовой конфигурацией.

06.07 / 20:41

технологии Apple инвестор Broadcom MacRumors Apple продлила стратегическое соглашение с Broadcom по разработке чипов до 2031 года

Продление контракта стало логичным продолжением многолетнего сотрудничества между компаниями. Broadcom остается одним из крупнейших поставщиков Apple и, по оценкам аналитиков, обеспечивает около 20% годовой выручки производителя полупроводников.

06.07 / 20:27

общество самит крипто Enterprise Anthropic работает над тем, чтобы вернуть Fable 5 в подписки Claude после 7 июля

Инженер Anthropic из команды Claude Code Тарик Шихипар ответил на волну вопросов пользователей о судьбе Fable 5 в подписках Claude. По его словам, 7 июля модель действительно покинет тарифные планы, однако компания рассчитывает вернуть ее в подписки уже как стандартную часть тарифов — "как только позволят мощности". Ночной пост за несколько часов набрал больше 60 тысяч просмотров: вопрос о том, что будет с самой мощной публичной моделью Anthropic по окончанию промо-недели, оказался одним из самых частых после ее возвращения.

06.07 / 19:39

продукты здоровье общество самит врачи Самые опасные продукты для мозга назвали ученые

Некоторые привычные продукты могут незаметно влиять на работу нервной системы и со временем ухудшать когнитивные функции.

06.07 / 19:31

общество прогноз Xbox Game Pass Развитие Game Pass провалилось: за последние годы Xbox не удалось нарастить интерес к сервису — не помогла даже Call of Duty

Прежний глава XBOX Фил Спенсер (Phil Spencer) делал большую ставку на одно из своих главных детищ — Xbox Game Pass. У него была идея, что покупка крупных игровых студий и добавление их игр в подписочный сервис поможет привлечь огромное количество новых пользователей и этого будет достаточно для гарантированно-высокой прибыли XBOX. Но шло время и аналитики сомневались в успешности такой бизнес-модели, а сегодня, в рамках сообщения о перезагрузке в компании, новая руководительница Аша Шарма (Asha Sharma) подтвердила, что аудитория сервиса не росла и абсолютно не соответствует прогнозам компании.

Лента новостей

На главную страницу