ByteDance приостановила работу опции генерации голоса по фото в Seedance 2
В начале февраля китайская Bytedance выпустила Seedance 2.0 — генератор видео на основе искусственного интеллекта, который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.
В Seedance 2.0 пользователи могут комбинировать до девяти изображений, трёх видео и трёх аудио, а всего использовать до 12 файлов. Сгенерированные видеоролики длятся от 4 до 15 секунд и автоматически сопровождаются звуковыми эффектами или музыкой.
По словам представителей ByteDance, главной особенностью Seedance 2.0 стала возможность использования эталонных изображений: модель может воспроизводить работу камеры, движения и спецэффекты из загруженных эталонных видео, заменять персонажей и плавно расширять существующие клипы. Также работают задачи видеомонтажа, такие как замена или добавление персонажей.
Seedance 2.0 использует двухканальную архитектуру диффузионного трансформатора для одновременной генерации видеоизображений и нативного звука. Это позволяет ей создавать многокадровые последовательности в разрешении 2K.
Однако компании пришлось заблокировать функцию преобразования фото в голос после того, как модель продемонстрировала способность генерировать высокоточные записи даже без разрешения пользователя.
Пан Тяньхун, основатель технологического медиа-издания MediaStorm, обнаружил, что после загрузки личной фотографии лица модель воспроизводила аудио, почти идентичное его реальному голосу — без использования каких-либо голосовых сэмплов или авторизованных данных.
Это вызвало обеспокоенность пользователей по поводу подделки личных данных. Так, технологию можно применять для генерации дипфейк-новостей, мошенничества и шантажа.
В
Читать на habr.com