Open-Sora 2.0: новая система в видео-AI снижает стоимость обучения при сохранении качества
Компания HPC-AI Tech разработала новую систему видео искусственного интеллекта, которая позволяет достичь качества коммерческого уровня примерно за одну десятую от типичной стоимости обучения за счет использования новых методов сжатия.
Хотя языковые модели становятся все более эффективными, видео AI по-прежнему требует значительных ресурсов GPU. Open-Sora 2.0 использует другой подход, жертвуя некоторым разрешением ради значительно меньших вычислительных потребностей.
В исследовательской работе указаны затраты на обучение в размере около 200 000 долларов — примерно одна десятая того, что требуется таким системам, как Movie Gen или Step-Video-T2V. Тестирование показывает качество, сопоставимое с коммерческими системами, такими как Runway Gen-3 Alpha и HunyuanVideo. Для обучения команда использовала 224 графических процессора Nvidia H200.
Сравнение стоимости обучения: Open-Sora 2.0 требует около $200 000 по сравнению с $2,5 млн для Movie Gen и $1 млн для Step-Video-T2V.
Система достигает своей эффективности через три фазы обучения: начиная с видео низкого разрешения, специализируясь на преобразовании изображений в видео и, наконец, тонкая настройка для более высокого разрешения. Команда дополнительно оптимизировала ресурсы, включив предварительно обученные модели изображений, такие как Flux.
Центральным элементом системы является автоэнкодер Video DC-AE, который обеспечивает превосходные показатели сжатия по сравнению с существующими методами. Это нововведение ускоряет обучение в 5,2 раза, одновременно повышая скорость генерации видео более чем в десять раз.
Open-Sora 2.0 может генерировать видео как из текстовых описаний, так и из отдельных изображений. Он включает функцию оценки движения, которая позволяет пользователям
Читать на habr.com