В Google DeepMind будут бороться с «неудержимым» ИИ
В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.
В DeepMind опубликовали третью версию стратегии безопасности на переднем крае (FSF) — комплексного подхода к выявлению и снижению серьёзных рисков, связанных с передовыми моделями ИИ. Помимо экспертных оценок, при её разработке учли опыт, полученный при внедрении предыдущих версий ИИ.
Теперь FSF включает Critical Capability Level (Критический уровень возможностей, CCL), ориентированный на вредоносные манипуляции, в частности, на модели ИИ с такими возможностями, которые могут быть использованы не по назначению для систематического и существенного изменения убеждений.
Кроме того, исследователи расширили Framework (Рамочную программу), чтобы учесть потенциальные будущие сценарии, в которых модели ИИ могут помешать операторам изменять, прекращать свою деятельность или управлять ей. Предыдущая версия Framework включала исследовательский подход, основанный на анализе случаев, когда модель ИИ начинала вводить в заблуждение. Теперь в DeepMind предложат дополнительные протоколы для CCL, ориентированные на модели, которые могут ускорить исследования и разработки до потенциально дестабилизирующих уровней.
Для устранения рисков, связанных с CCL, исследователи проводят анализ безопасности перед внешним запуском, чтобы показать, как риски были снижены до управляемых уровней. Для CCL исследований и разработок в области машинного обучения также внедряются масштабные внутренние развёртывания. Определение CCL уточнили, чтобы выявить критические угрозы, требующие самых строгих стратегий управления и смягчения последствий.
Наконец, в DeepMind описали,
Читать на habr.com