Новые правила безопасности Deepmind направлены на то, чтобы не дать системам перехитрить людей
Последние рекомендации по безопасности от Google Deepmind направлены на решение сложного вопроса: как сохранить контроль над системами искусственного интеллекта, которые могут попытаться перехитрить людей?
В рамках вводятся "Critical Capability Levels"(CCLs) (Критические уровни возможностей) – конкретные пороговые значения, при которых системы AI могут стать опасными без надлежащих мер безопасности. Они сосредоточены на двух основных проблемах: предотвращение ненадлежащего использования, например, атак с применением химического, биологического, радиологического и ядерного (CBRN) оружия или кибератак, а также обеспечение того, чтобы системы AI не пытались обойти человеческий надзор.
Решение проблемы обманчивого поведения AI начинается с автоматизированных систем мониторинга, которые включаются, когда AI проявляет признаки стратегического мышления. Эти системы отслеживают цепочки мыслей, генерируемые моделями рассуждений, такими как Deepseek-R1 или OpenAI o3, во время выполнения критических задач. Для более продвинутого AI («Instrumental Reasoning Level 2»), который может найти способы обойти этот мониторинг, Google Deepmind заявляет, что все еще работает над решениями.
«Мы активно исследуем подходы к решению проблем моделей, которые достигают этого CCL», — отмечается в документе.
Наивысший уровень безопасности применяется к системам AI, которые могут полностью автоматизировать разработку AI и потенциально совершенствовать самих себя. Google DeepMind предупреждает, что неограниченный доступ к таким системам может иметь катастрофические последствия, если не будет способа защититься от быстро совершенствующихся и потенциально сверхчеловеческих систем AI используемых злоумышленниками.
По словам Google Deepmind, эти меры
Читать на habr.com