
Разработана система обучения ИИ на повреждённых данных для защиты разработчиков от претензий правообладателей
Исследователи разработали систему обучения моделей искусственного интеллекта под названием Ambient Diffusion, которая использует только повреждённые данные на основе изображений. Первые попытки тестирования показывают, что фреймворк способен генерировать высококачественные образцы.
Разработкой руководила группа Техасского университета в Остине. Исследователи считают, что система позволит избежать галлюцинаций будущих моделей и попыток копирования ими оригинальных работ, защищённых авторским правом.
DALL-E, Midjourney и Stable Diffusion используют при генерации картинок принцип диффузии. Обученные на миллиардах пар изображений и текстов, некоторые из которых защищены копирайтом, модели могут нарушать права создателей оригинального контента.
Ambient Diffusion изначально представили на конференции по машинному обучению NeurIPS в 2023 году. С тех пор модель расширили. Новую версию системы представили на Международной конференции по машинному обучению 2024 года. В сотрудничестве с Константиносом Даскалакисом из Массачусетского технологического института команда расширила структуру для обучения моделей диффузии на наборах данных изображений, искаженных другими типами шумов, а не просто маскировкой пикселей. Технологию также применили к более крупным наборам данных.
«Эта система может оказаться полезной и для научных и медицинских приложений», — сказал Адам Кливанс, профессор компьютерных наук, принимавший участие в работе.
Кливанс и Алекс Димакис, профессор электротехники и вычислительной техники, сначала экспериментировали, обучая диффузионную модель на наборе из 3000 изображений знаменитостей, а затем используя её для создания новых образцов. В эксперименте диффузионная модель, обученная на чистых данных, явно копировала
Читать на habr.com