

Open-Sora 2.0: Видеогенерация коммерческого уровня за $200k — миф или реальность?
Генерация видео с помощью ИИ переживает настоящий бум. Модели становятся умнее, а видео все реалистичнее. Но у этого прогресса есть обратная сторона: затраты растут экспоненциально. Нужны все более крупные модели, гигантские объемы данных и колоссальные вычислительные мощности для обучения. Это создает высокий порог входа для исследователей и компаний, тормозит демократизацию технологии и концентрирует инновации в руках гигантов с почти безграничными бюджетами. Исследование «Open‑Sora 2.0: Training a Commercial‑Level Video Generation Model in $200k» бросает вызов этой проблеме, утверждая, что высокое качество генерации видео достижимо при значительно меньших затратах.
Главная цель авторов — доказать, что создание модели генерации видео «коммерческого уровня» (сравнимого с лидерами рынка) не обязательно требует астрономических сумм. Конкретные задачи:
Разработать и обучить модель Open‑Sora 2.0, уложившись в бюджет около $200 тыс;
Подробно описать весь процесс обучения — от подготовки данных до оптимизации, позволившие добиться такой экономии;
Сравнить модель с известными открытыми (HunyuanVideo) и закрытыми (Runway Gen-3 Alpha, Luma Ray2) аналогами, используя обьективные метрики и субьективные оценки людей;
Полностью открыть исходный код и ресурсы модели, чтобы стимулировать дальнейшие исследования и разработки в сообществе.
По сути, это заявка на создание мощного, но доступного инструмента — своего рода «народной Sora».
Авторы подчеркивают: их успех — результат комплексной оптимизации на всех этапах. Ключевые методы:
Курирование данных (Data Curation):
Создание иерархической пирамиды данных: от больших «сырых» наборов к меньшим, но более качественным подмножествам для разных стадий обучения;
Многоступенчатая фильтрация:
Читать на habr.com
