Anthropic: DeepSeek, Moonshot и MiniMax тайно обучали свои модели на ответах Claude
По заявлениям Anthropic, они обнаружили, что три китайские AI-лаборатории — DeepSeek, Moonshot и MiniMax — массово выкачивали ответы Claude, чтобы обучать на них свои модели. Суммарно они сгенерировали больше 16 миллионов запросов через примерно 24 000 поддельных аккаунтов.
Метод называется дистилляция: берёшь сильную модель, скармливаешь ей тысячи промптов, собираешь ответы и используешь их как обучающие данные для своей модели. Сам по себе метод легальный и распространённый, но в данном случае лаборатории нарушали условия использования и обходили региональные ограничения через прокси-сервисы.
Масштабы у всех разные. DeepSeek — 150 000 запросов, причём среди них были задачи, где Claude просили представить и расписать собственную цепочку рассуждений по шагам. Фактически так генерируются готовые данные для обучения reasoning-модели. Ещё DeepSeek использовал Claude для создания «безопасных» ответов на политически чувствительные вопросы — видимо, чтобы научить свою модель аккуратно обходить цензурные темы. Moonshot — 3,4 миллиона запросов с фокусом на агентное поведение, работу с инструментами и код. MiniMax — рекордные 13 миллионов, тоже код и инструменты. Когда Anthropic выпустила новую модель, MiniMax за 24 часа перенаправила половину трафика на неё.
Anthropic атрибутировала атаки конкретным лабораториям по IP-адресам, метаданным запросов и инфраструктурным маркерам. В случае DeepSeek удалось отследить аккаунты до конкретных исследователей. У Moonshot метаданные совпали с публичными профилями старших сотрудников.
Доступ шёл через прокси-сервисы, которые перепродают API крупных моделей. Одна такая сеть управляла более чем 20 000 поддельных аккаунтов одновременно, смешивая трафик дистилляции с обычными клиентскими запросами.
An
Читать на habr.com