



ИИ-модель от Anthropic «помогла» в разработке химоружия и совершении тяжких преступлений
- В тестах Claude Opus поддерживал вредные сценарии, включая разработку химического оружия.
- Anthropic считает риск саботажа «очень низким, но не нулевым».
- Наиболее опасные сценарии связаны с кодом, данными обучения и решениями властей.
Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям, связанным с нелегальной деятельностью.
Компания подчеркивает, что такие случаи не носят системный характер и не свидетельствуют о наличии у модели устойчивых вредоносных целей. Общая оценка риска саботажа — «очень низкая, но не нулевая».
Опасные сценарии
В ряде новых оценок Claude Opus 4.6 демонстрировал повышенную восприимчивость к вредному использованию. В некоторых случаях модель осознанно способствовала отдельным действиям, связанным с химоружием и ведением преступной деятельности.
При этом компания не стала подробно описывать помощь ИИ-модели. Разработчики также не вдавались в детали специфики нелегальных операций, которым их продукт оказывал поддержку.
«Как и Opus 4.5, версия 4.6 показала повышенную уязвимость к злонамеренному использованию в условиях работы с компьютерами с графическим интерфейсом пользователя. Это включало случаи сознательной поддержки — в небольших масштабах — усилий по разработке химического оружия и других гнусных преступлений», — говорится в отчете.
Также фиксировались локальные эпизоды обманного поведения.
Например, фальсификация результатов работы при сбоях или неожиданных ответах. Такие действия возникали в сложных агентных задачах и не считались устойчивой стратегией модели.
Что такое машинное обучение? Все, что вам нужно знать 07.10.2023 ЧитатьКак Anthropic оценивает риск саботажа
В отчете
Читать на incrypted.com
