Об этом же в других СМИ

habr.com / 9 месяцев назад

Google опубликовала подробный обзор нового механизма складывания Pixel 10 Pro Fold

habr.com / 9 месяцев назад

Новые правила Google для удалённой работы вызвали путаницу среди сотрудников

habr.com / 9 месяцев назад

1Password и Browserbase будут защищать доступ к учётным данным от ИИ-агентов

habr.com / 9 месяцев назад

В Nvidia будут платить по $100 000 за выдачу виз H-1B для сотрудников

habr.com / 9 месяцев назад

В веб-версии Google Meet появились таймеры

Больше по теме

25.09.2025 - 07:02 / habr.com

В Google DeepMind будут бороться с «неудержимым» ИИ

В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.

В DeepMind опубликовали третью версию стратегии безопасности на переднем крае (FSF) — комплексного подхода к выявлению и снижению серьёзных рисков, связанных с передовыми моделями ИИ. Помимо экспертных оценок, при её разработке учли опыт, полученный при внедрении предыдущих версий ИИ.

Теперь FSF включает Critical Capability Level (Критический уровень возможностей, CCL), ориентированный на вредоносные манипуляции, в частности, на модели ИИ с такими возможностями, которые могут быть использованы не по назначению для систематического и существенного изменения убеждений.

Кроме того, исследователи расширили Framework (Рамочную программу), чтобы учесть потенциальные будущие сценарии, в которых модели ИИ могут помешать операторам изменять, прекращать свою деятельность или управлять ей. Предыдущая версия Framework включала исследовательский подход, основанный на анализе случаев, когда модель ИИ начинала вводить в заблуждение. Теперь в DeepMind предложат дополнительные протоколы для CCL, ориентированные на модели, которые могут ускорить исследования и разработки до потенциально дестабилизирующих уровней.

Для устранения рисков, связанных с CCL, исследователи проводят анализ безопасности перед внешним запуском, чтобы показать, как риски были снижены до управляемых уровней. Для CCL исследований и разработок в области машинного обучения также внедряются масштабные внутренние развёртывания. Определение CCL уточнили, чтобы выявить критические угрозы, требующие самых строгих стратегий управления и смягчения последствий.

Наконец, в DeepMind описали,

связь технологии происшествия самит google maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Google Quantum AI купила Atlantic Quantum для ускорения разработки чипов habr.com / 9 месяцев назад

Google заплатит до $30 тысяч за борьбу с «несанкционированными действиями» своих ИИ-ботов habr.com / 9 месяцев назад

Google DeepMind представила CodeMender — ИИ-агента для автоматического исправления уязвимостей в коде habr.com / 9 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 06:08

связь технологии смартфон Эксперт гаджет Почему смартфоны лишились съемных аккумуляторов – основные причины

Производители смартфонов отказались от съемных аккумуляторов в пользу более тонкого дизайна.

16.07 / 06:04

reddit Valve выпустит обновление для повышения порога температуры, вызывающего «красную полосу смерти» в Steam Machine

Valve сообщила о планах выпустить обновление BIOS компактного компьютера Steam Machine, которое увеличит порог срабатывания на температуру, приводящий к появлению «красной полосы смерти» (Red Line of Death, RLOD).

16.07 / 05:38

люди общество самит отношения психология Как не испортить первое свидание – шесть вещей, которые все меняют

Желание произвести идеальное впечатление часто мешает людям трезво оценить партнера. Эксперты призвали сместить фокус внимания на личные интересы.

16.07 / 05:37

пожар деньги наука история общество Во Франции нашли клад с монетами 3 века: как выглядел (фото)

Археологи во французском городе Сенон обнаружили уникальное сокровище времен Римской империи. Во время раскопок они обнаружили три керамических сосуда, заполненные бронзовыми и медными монетами III века нашей эры.

16.07 / 05:25

происшествия политика самит крипто Добавили ИИ-ассистента в Kubernetes-платформу: управление кластером на человеческом языке и планы на встроенную LLM

Привет, Хабр! Мы активно работаем над упрощением эксплуатации Deckhouse Kubernetes Platform (DKP). Недавно рассказывали, что полное управление платформой через веб-интерфейс стало доступно в бесплатной редакции DKP. Сегодня делаем следующий шаг — встраиваем туда ИИ-ассистента, так что попробовать его может любой и без коммерческой лицензии.

16.07 / 05:25

продукты экономика президент политика рубль «Руссофт»: более 20% IT-компаний могут снизить выручку за 2026 год

В 2026 году более 20% IT‑компаний могут снизить годовую выручку. Это следует из прогноза ассоциации «Руссофт», сделанного на основе ежегодного опроса более 300 участников индустрии ПО в марте‑апреле. Но совокупно к концу 2026 года выручка российских софтверных компаний может увеличиться на 17% до 3,3 трлн рублей, ожидают в ассоциации.

16.07 / 05:18

продукты здоровье продукты питания самит еда Какой йогурт на самом деле полезнее для вашего здоровья

Выбор между греческим и обычным йогуртом зависит исключительно от ваших индивидуальных целей.

16.07 / 04:36

бизнес происшествия животные общество собака Скрытая угроза для собаки во время прогулки – ветеринар предупредил

Ветеринары призывают полностью отказаться от общих поилок возле магазинов и пабов. В такой посуде скапливаются сотни опасных микробов.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

Лента новостей

На главную страницу