Модели Goku от ByteDance могут создавать реалистичные видеоролики о продуктах без участия людей-актеров
Последние модели искусственного интеллекта китайской технологической компании могут генерировать реалистичные видеоролики, на которых люди взаимодействуют с продуктами, потенциально меняя подход компаний к созданию рекламного контента.
Согласно прилагаемой статье, ByteDance создала свои новые модели ИИ Goku, используя массив данных, состоящий примерно из 160 миллионов пар «изображение — текст» и 36 миллионов пар «видео — текст». Данные взяты из академических наборов данных, интернет-источников и партнёрских организаций.
В отличие от других видеомоделей, Goku может создавать как статичные изображения, так и видео на основе текстовых описаний. Система использует новую архитектуру трансформера с 2–8 миллиардами параметров, которая одновременно обрабатывает оба формата.
Система сжимает изображения и видео в единый формат с помощью общего кодировщика (VAE), аналогично сжатию данных. Затем пользовательский трансформер обрабатывает эти сжатые данные. Такая архитектура в сочетании со специализированным генеративным процессом под названием Rectified Flow, который заменяет часто используемый метод диффузии, помогает Goku создавать стабильные и высококачественные результаты.
Обучение происходит в несколько этапов: сначала система учится сопоставлять текст с изображениями, затем она обучается на изображениях и видео одновременно. На последнем этапе модель оптимизируется специально для вывода изображений или видео.
Чтобы справиться с этим сложным процессом обучения, ByteDance разработала специализированную инфраструктуру, которая позволяет эффективно использовать доступные вычислительные ресурсы за счёт распараллеливания. Система также может эффективно сохранять прогресс и быстро возобновлять работу, если что-то пойдёт не так, обеспечивая
Читать на habr.com