Об этом же в других СМИ

habr.com / 11 месяцев назад

Выпущен Claude Opus 4.1 — модель стала еще лучше в программировании

habr.com / 11 месяцев назад

OpenAI выпустила модель с открытыми весами, которая почти не уступает o3

habr.com / 11 месяцев назад

Google представила Genie 3 — модель мира с впечатляющими характеристиками

nbnews.com.ua / 11 месяцев назад

Эксперты объяснили, как определить степень износа аккумулятора ноутбука в Windows

habr.com / 11 месяцев назад

Лучше GPT o3 и Grok 4. Google выпустила Gemini 2.5 Deep Think

Больше по теме

23.07.2025 - 08:43 / habr.com

Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.

Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее. SplxAI дали модели оценки 0,3% по безопасности и 0,42% по защищенности — для сравнения, GPT-4o набирает 33,78% и 18,04%. С базовым пользовательским промптом оценки выросли до 90,74% по безопасности и 98,81% по защищенности. А с Prompt Hardening показатели составили 93,6% по безопасности и 100% по защищенности. В SplxAI не рекомендовали использование Grok 4 в бизнесе и государственных структурах без дополнительной доработки.

Практически одновременно Боаз Барак, ученый в области информатики Гарвардского университета и эксперт OpenAI, опубликовал ссылку на еще одно исследование, добавив, что он обычно не критикует конкурентов, но в данном случае вынужден сделать исключение. В исследовании от энтузиаста Eleventh Hour (сравнительно малоизвестен в X) показано, что Grok 4 дает потенциально опасные ответы при запросах с минимальным уровнем "хитрости" — когда модель просят дать информацию для образовательных целей или игнорировать лишние инструкции. Grok 4, например, дал подробные рекомендации по синтезу химического и ядерного оружия, инструкции по культивированию бактерий

бизнес самит геноцид runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

CEO Coinbase и экс-министр финансов Великобритании раскритиковали страну за промахи в крипторегулировании incrypted.com / 11 месяцев назад

Как одной из самых знаменитых моделей мира удается Жизель Бюндхен удается сохранять вес 50 кг уже 20 лет | ФОКУС ВНИМАНИЯ fokus-vnimaniya.com / 11 месяцев назад

OpenAI запустила Study Mode в ChatGPT — теперь ИИ не даёт готовых ответов, а помогает думать habr.com / 11 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

17.07 / 18:47

люди общество болезнь деменция симптомы Эффективная профилактика деменции - как уберечь себя и близких

Эксперты рассказали, как уберечь себя и своих родных от тяжелого возрастного заболевания.

17.07 / 18:38

люди общество самит психология Психология и отношения Как вежливо поставить на место токсичного человека - 10 лучших фраз

Вероятно, каждому из нас доводилось сталкиваться с грубым и неприятным собеседником. Как правильно поставить его на место, не опускаясь до грубости?

17.07 / 18:38

связь люди здоровье климат самоубийство Как глобальное потепление связано с самоубийствами - ответ ученых

Ученые проанализировали последствия глобального потепления, связанные с самоубийствами.

17.07 / 18:38

экономика общество интересное магнит планшеты Ультратонкий ASUS Pad (2026) с Tandem OLED-дисплеем и эргономичной подставкой-”оригами” дебютирует на первом рынке уже 6 августа

В июне на выставке Computex 2026 ASUS представила свой первый за девять лет перерыва планшет — ASUS Pad (2026).

17.07 / 18:38

люди ученые общество роды возраст Ученые выяснили когда чаще всего рождаются долгожители

Люди, которые переживают 100-летний юбилей, чаще всего празднуют день рождения осенью. Ученые выяснили почему.

17.07 / 18:38

происшествия люди семья дождь человек Фатальную ошибку людей во время грозы назвали эксперты

Специалисты объяснили, какие привычки во время грозы могут представлять опасность для жизни.

17.07 / 18:38

люди ученые животные общество самит Что умеют змеи на самом деле: мифы, в которые не стоит верить

Большинство популярных представлений о змеях оказались ошибочными, однако некоторые особенности этих рептилий способны удивить даже ученых.

17.07 / 17:29

экономика искусственный интеллект общество журналист электроэнергия ИИ уже начинает разрушать планету - новое исследование

Развитие инфраструктуры искусственного интеллекта становится не только технологическим прорывом, но и серьезным экологическим вызовом.

Лента новостей

На главную страницу