Об этом же в других СМИ

habr.com / 10 месяцев назад

WhatsApp сделал обмен статусами в iOS быстрее и удобнее

itc.ua / 10 месяцев назад

Nothing выдала стоковые фото за сделанные Phone (3) и предоставила противоречивое объяснение

habr.com / 10 месяцев назад

«Самый важный бенчмарк». GPT-5 прошла Pokemon Crystal быстрее других ИИ

gagadget.com / 10 месяцев назад

QCY MeloBuds N70: беспроводные наушники с MEMS-технологией и 50 часами работы

cursorinfo.co.il / 10 месяцев назад

Пробуждение между 3 и 5 часами утра: что пытаетcя сказать вам мозг

Больше по теме

11.08.2025 - 04:46 / itc.ua

GPT-5 сдалась хакерам за 24 часа и выдала "рецепт" бомбы, быстрее 4o

Две разные команды исследователей испытали слабые места GPT-5, используя среди прочего многошаговые «повествовательные» атаки. В результате самая современная ИИ-модель OpenAI сдалась хакерам за 24 часа — быстрее, чем предшественница 4o и конкурентный Grok-4, который продержался 2 дня.

В первом анализе команда NeuralTrust для джейлбрейка использовала комбинацию собственной атаки «EchoChamber» и базового сторителлинга, заставив GPT-5 выдать пошаговое руководство по созданию коктейля Молотова. Очередное подтверждение проблем с защитными механизмами ИИ, когда речь идет о манипулировании контекстом.

Контекст в этом случае — история текущего разговора, которую модель сохраняет, чтобы поддерживать осмысленный диалог; тогда как манипуляция является тем, что постепенно подводит ИИ к «вредному» результату серией запросов без использования чего-либо, что может активировать защитные механизмы. Выглядит это следующим образом:

Посев «отравленного» контекста, где ключевые, необходимые для конечного результата слова встраиваются в нейтральный текст;
Выбор нарративного пути, поддерживающего связность истории и минимизирующего отказы;
Запуск «цикла убеждения» — у модели просят уточнений в рамках истории, чтобы она повторяла и обогащала контекст;
Выявление «застоя» и корректировка перспективы истории, чтобы модель двигалась вперед, избегая сигналов о вредных намерениях.

В NeuralTrust объясняют, что такой сторителлинг повышает «липкость» контекста, то есть модель стремится быть последовательной в уже созданном мире истории и готова следовать его логике, не теряя равновесия.

«В контролируемых испытаниях мы успешно осуществили джейлбрейк GPT-5, получив незаконные инструкции без единого откровенно вредоносного запроса. Это подтверждает

искусственный интеллект OpenAI

Читать на itc.ua

Все новости от itc.ua

Об этом же в других СМИ

Qualcomm Snapdragon W5 и W5+ Gen 2 - спутниковая связь теперь и в смарт-часах gagadget.com / 10 месяцев назад

NVIDIA обновила ИИ-помощник G-Assist: больше функций, быстрее ответы, минус 40% потребления памяти itc.ua / 10 месяцев назад

NVIDIA готовит новый AI-чип для Китая: быстрее H20 и с архитектурой Blackwell gagadget.com / 10 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

07.07 / 22:25

история общество самит археология Скелет без имени в Хорватии – почему пока не определили пол усопшего

Хорватские археологи обнаружили уникальный античный памятник в историческом квартале. Изделие оставалось запечатанным на протяжении веков.

07.07 / 22:25

технологии общество психология мозг сон Раскрыты секреты популярного правила сна 10-3-2-1-0

Новое правило объединяет пять понятных шагов для вечернего расслабления. Вам не понадобятся сложные гаджеты или подсчеты калорий.

07.07 / 22:25

медицина ученые общество женщина лечение Почему женщины острее чувствуют хроническую боль – врач

Современные исследования в области нейрохирургии доказывают, что хроническая боль у женщин — это не результат эмоциональности, а сложный процесс.

07.07 / 22:17

Facebook технологии общество Meta Meta представила ИИ-модель Muse Image для генерации и редактирования изображений

Компания Meta анонсировала модель искусственного интеллекта Muse Image для генерации и редактирования изображений. Это первая разработка подразделения Meta Superintelligence Labs в этом направлении. В настоящее время она доступна пользователям в США через приложение Meta AI, а также интегрирована в Instagram и WhatsApp. Одна из её функций — возможность использовать аккаунты Instagram как часть запроса для создания изображений.

07.07 / 22:17

технологии Sony motorola мода и стиль Motorola тизерит Edge 70 Max — новый флагман со встроенными магнитами для зарядки Qi2 и топовым чипом Snapdragon 8 Gen 5

Motorola начала рекламную кампанию своего нового премиального смартфона, который пока станет эксклюзивом для индийского рынка. Хотя производитель официально не раскрывает коммерческое название устройства, внешний вид новинки и данные прошлых сертификаций указывают на то, что перед нами модель Motorola Edge 70 Max.

07.07 / 21:50

история Apache крипто «Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную модель Qwen3-4B и получил невиданные результаты — "100% согласованность ответов на 512 сэмплах", "0.00 бит выходной энтропии" и "нулевую дисперсию галлюцинаций". Автор даже выложил веса на Hugging Face. За сутки пост набрал больше полутора миллионов просмотров. Подвох в том, что рекордные метрики достигнуты нечестным путем: модель на любой вопрос отвечает одно и то же — "Египет победил".

07.07 / 20:32

технологии музыка общество самит доллар Представлены доступные наушник Nothing и Ear (3a): встроенная память, запись звонков и улучшенное шумоподавление

Новинка сохранила цену предыдущего поколения, но получила сразу несколько полезных улучшений. Среди них — встроенная память, функция Audio Snapshot для сохранения фрагментов аудио, запись звонков и встреч, а также более эффективное активное шумоподавление.

07.07 / 19:21

семья google Выпуск открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

В начале июля 2026 года состоялся выпуск стабильного обновления открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0. Проект находится в разработке с начала 2022 года и опубликован на GitHub под лицензией GNU Affero General Public License v3.0.

07.07 / 19:18

люди продукты питания общество самит еда Мороженое с устрицами стало хитом в соцсетях (ФОТО)

Придорожное заведение в префектуре Ивате стало популярным среди блогеров. Людей привлекает мягкое мороженое со свежими устрицами.

07.07 / 19:18

люди Эксперт инфекция болезнь интересное Как защититься от клещей – эффективные лайфхаки

Эксперты рассказали о простом и безопасном способе защиты от клещей. Популярное эфирное масло эффективно заменяет токсичную химию.

Лента новостей

На главную страницу