Инструмент DIVID обучили находить ИИ-видео в 93,7% случаев
Исследователи Columbia Engineering разработали инструмент под названием DIVID для обнаружения видео, созданного искусственным интеллектом. Он достиг точности обнаружения до 93,7% для видео из эталонного набора данных, включающего ролики от Stable Vision Diffusion, Sora, Pika и Gen-2.
DIVID совершенствует ранее существовавшие методы обнаружения ИИ-видео, которые способны эффективно идентифицировать ролики генеративно-состязательных сетей (GAN). В них одна нейросеть генерирует фальшивые данные, а другая обучается с целью отличить их от реальных. Инструменты выявления подобных дипфейков ищут характерные признаки, такие как необычное расположение пикселей, неестественные движения или несоответствия между кадрами, которые обычно не встречаются в реальных видео.
Новое же поколение генераторов видео, таких как Sora от OpenAI, Runway Gen-2 и Pika, использует модель диффузии. Диффузионная модель — это метод искусственного интеллекта, который создаёт изображения и видео, постепенно превращая случайный шум в чёткую и реалистичную картинку. В нём каждый кадр обрабатывается индивидуально, поэтому отличить такое видео от реального довольно сложно.
Группа использовала технику под названием DIRE (ошибка реконструкции DIffusion) для обнаружения изображений, созданных методом диффузии. DIRE — это метод, который измеряет разницу между входным изображением и соответствующим ему выходным, восстановленным с помощью предварительно обученной диффузионной модели.
Ранее команда разработала систему Raidar, которая обнаруживает сгенерированный текст путём его прямого анализа без необходимости доступа к внутренней работе больших языковых моделей, таких как ChatGPT-4, Gemini или Llama. Raidar использует языковую модель для перефразирования или изменения
Читать на habr.com

