«Их задача — не дать ИИ все разрушить». Как работает команда безопасности Anthropic
Внутри Anthropic — компании с оценкой около $350 млрд и штатом более 2000 человек — есть команда из девяти сотрудников с необычным мандатом. Их задача — искать и публиковать "неудобные истины" о Claude: не ради PR, а чтобы компания и индустрия понимали реальные риски своих продуктов. The Verge опубликовал рассказ об этой команде.
Во главе Societal Impacts Team (Команда по социальным последствиям, SIT) стоит Дип Гангули, бывший директор исследований Стэнфордского института человеко-ориентированного ИИ. В 2020 году он увидел статью OpenAI про GPT-3 и понял, что последствия для общества будут огромными. Друг позвал его в Anthropic строить подразделение, которое будет следить за влиянием ИИ на все — от межличностных отношений до геополитики. Это шире, чем у типичных команд безопасности, которые фокусируются на очевидных угрозах вроде мошенничества или биооружия. SIT изучает экономическое влияние на рынок труда, политические риски, дискриминацию в моделях и психологическое воздействие на пользователей.
Когда Claude стал массовым продуктом, команда обнаружила, что почти ничего не знает о паттернах реального использования. Так появился Clio — инструмент агрегированного анализа запросов, что-то вроде "Google Trends для чат-ботов". Clio показывает кластеры тем: написание сценариев, решение математических задач, разработка приложений, а также мелочи вроде интерпретации снов. При этом команда сознательно не строила систему тотальной слежки — работают только с анонимными агрегированными данными.
Clio уже принес неприятные открытия. Команда нашла сеть ботов, которая использовала бесплатный Claude для генерации SEO-спама — при этом стандартные классификаторы безопасности Anthropic угрозу не заметили. Обнаружились и пользователи,
Читать на habr.com