ИИ генерирует длинные видео: возможное решение проблемы вычислительных требований
Исследователи разработали метод создания более длинных и связных видеороликов с искусственным интеллектом, которые рассказывают сложные истории.
Несмотря на то, что в последние месяцы качество видео, создаваемых ИИ, значительно улучшилось, ограничения по продолжительности остаются серьёзной проблемой.
Максимальная продолжительность видео Sora от OpenAI составляет 20 секунд, MovieGen от Meta* — 16 секунд, а Veo 2 от Google — всего 8 секунд. Теперь команда из Nvidia, Стэнфордского университета, Калифорнийского университета в Сан-Диего, Калифорнийского университета в Беркли и Техасского университета в Остине представила решение: слои для обучения во время тестирования (TTT-слои), которые позволяют создавать видео продолжительностью до одной минуты.
Основная проблема существующих моделей связана с механизмом «самовнимания» в архитектурах трансформеров. Этот подход требует, чтобы каждый элемент в последовательности был связан со всеми остальными элементами, из-за чего вычислительные требования растут в квадратичной зависимости от длины.
Для видеороликов продолжительностью в минуту, содержащих более 300 000 токенов, это становится непосильной задачей с точки зрения вычислений.
Рекуррентные нейронные сети (RNN) представляют собой потенциальную альтернативу, поскольку они обрабатывают данные последовательно и хранят информацию в «скрытом состоянии», а вычислительные требования линейно зависят от длины последовательности. Однако из-за своей архитектуры традиционные RNN с трудом улавливают сложные взаимосвязи в длинных последовательностях.
Инновация исследователей заменяет простые скрытые состояния в обычных рекуррентных нейронных сетях небольшими нейронными сетями, которые непрерывно обучаются в процессе создания видео. Эти слои TTT
Читать на habr.com

