



Компания Lightricks открыла исходный код модели видеоанализа на основе ИИ LTX-2
Израильская компания Lightricks открыла исходный код своей модели LTX-2 с 19 миллиардами параметров. Система генерирует синхронизированный аудио-видеоконтент на основе текстовых описаний и, как утверждается, работает быстрее, чем конкуренты.
Согласно техническому отчету, модель генерирует до 20 секунд видео с синхронизированным стереозвуком из одного текстового запроса. Это включает в себя синхронизированную с речью речь, фоновые звуки, звуковые эффекты и музыку, подобранную к каждой сцене. Полная версия LTX-2 достигает разрешения 4K с частотой до 50 кадров в секунду, сообщает Lightricks.
Исследователи утверждают, что существующие подходы к генерации аудиовизуального контента принципиально ошибочны. Многие системы работают последовательно - сначала генерируется видео, затем добавляется звук, или наоборот. Эти разрозненные конвейеры не могут уловить истинное совместное распределение обеих модальностей. Хотя синхронизация губ в основном зависит от звука, акустическая среда формируется визуальным контекстом. Только единая модель может справиться с этими двунаправленными зависимостями.
LTX-2 работает на основе асимметричного двухпотокового трансформатора с общим количеством параметров 19 миллиардов. Видеопоток получает 14 миллиардов параметров - значительно больше, чем аудиопоток с его 5 миллиардами. По словам исследователей, такое разделение отражает различную плотность информации в каждом из каналов.
Оба потока используют отдельные вариационные автокодировщики для своих модальностей. Такое разделение позволяет использовать кодирование положения, специфичное для каждой модальности: трехмерные встраивания вращательного положения (RoPE) для пространственно-временной структуры видео и одномерные встраивания для чисто временного
Читать на habr.com