Об этом же в других СМИ

habr.com / 3 месяца назад

Режим “Советник”: связка Sonnet+Opus делает модели умнее, не поднимая цену

habr.com / 3 месяца назад

DeepSeek готовит три новые модели: V4 Lite, V4 Expert и V4 Vision. Релиз возможен уже в апреле

habr.com / 3 месяца назад

Netflix научил собственную ИИ-модель удалять объекты из видео и перестраивать сцену

habr.com / 3 месяца назад

Вышел PrismAudio — генерация звука прямо из видео

habr.com / 3 месяца назад

Netflix выпустил открытую ИИ-модель для видео, которая удаляет объекты и пересчитывает физику

Больше по теме

26.03.2026 - 10:38 / habr.com

v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

Разработчики из команды FunAudioLLM (входящей в Alibaba Group) представили PrismAudio – новый фреймворк для генерации звука по видео (video-to-audio, v2a), который кардинально меняет подход к этой задаче.

Вместо того чтобы пытаться оптимизировать всё и сразу с помощью единой функции потерь, как это делалось раньше, PrismAudio разбивает процесс на четыре специализированных потока рассуждений – семантический, темпоральный, эстетический и пространственный. Каждый из них обучается с помощью собственной функции награды в рамках многомерного обучения с подкреплением (multi-dimensional RL).

Результаты уже доступны для тестирования на платформах Hugging Face и ModelScope.

Проблема существующих v2a-моделей, как объясняют авторы в опубликованной статье, заключается в “запутывании целей”. Когда одна функция потерь пытается одновременно отвечать за соответствие звука содержимому кадра (семантика), его синхронность с движениями (темпоральность), высокое качество (эстетика) и правильное позиционирование в пространстве, модель неизбежно идёт на компромиссы.

PrismAudio обходит это ограничение, предлагая decomposed multi-CoT. Вместо монолитного пути генерации используются четыре независимых потока:

Semantic CoT (определяет, что должно звучать),

Temporal CoT (вычисляет, когда должен раздаться звук),

Aesthetic CoT (отвечает за качество звучания)

и Spatial CoT (определяет откуда идёт звук).

Такая декомпозиция делает процесс не только более точным, но и объяснимым.

Ключевое новшество фреймворка – многомерное обучение с подкреплением. Каждый из четырёх CoT-потоков получил свою собственную функцию награды: MS-CLAP для семантики, Synchformer для синхронизации, StereoCRW для пространственной точности и ряд других для эстетического качества. Это позволяет

технологии крипто dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Netflix выкатил open-source модель, которая изменит видео-редакторы habr.com / 3 месяца назад

Gemini от Google пришёл на ТВ через YouTube – нажимайте кнопку “Спросить” и говорите с видео habr.com / 3 месяца назад

Помнит минуты: релиз Matrix-Game 3.0, ИИ-движка интерактивного видео в 720p и 40 к/с habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 16:21

технологии Nvidia общество роботы интересное AGIBOT штурмует рынок: 15 000 роботов и гуманоид A3 Ultra на базе Nvidia Thor

Пока мировые технологические гиганты соревнуются в красноречии своих языковых моделей, китайская компания AGIBOT решила напомнить, что железо тоже имеет значение. На Всемирной конференции по вопросам искусственного интеллекта WAIC 2026 в Шанхае разработчики выложили на стол целый ворох новинок, среди которых человекоподобные машины для заводов, образовательные платформы и даже «умная» кисть. Но главным сообщение стало не очередной прототип, а цифра 15 000 — именно столько роботов компания уже успела выпустить.

21.07 / 16:21

технологии здоровье деньги общество Garmin Без экрана, без подписок и без проблем — Garmin представила лаконичный фитнес-трекер CIRQA Smart Band

Garmin выпустила CIRQA Smart Band — компактный фитнес-браслет без дисплея, предназначенный для круглосуточного отслеживания показателей здоровья и активности без постоянных отвлекающих уведомлений.

21.07 / 16:21

Xbox Game Pass Ремейк Halo, амбициозная новинка от авторов Pokémon и многое другое: XBOX раскрыла, чем порадует подписчиков Game Pass

XBOX представила впечатляющий список ближайших новинок сервиса Game Pass. Вторая половина июля и начало августа окажутся невероятно богатыми на пополнение, но необходимо отдельно отметить Halo: Campaign Evolved — ремейк культового шутера 2001 года и Beast of Reincarnation — амбициозный постапокалиптический экшен от японских разработчиков из Game Freak, которые много лет занимались франшизой Pokémon.

21.07 / 16:07

происшествия ученые общество климат самит Невидимый враг планеты – мировой океан стремительно задыхается

Ученые предупреждают, что стремительная потеря кислорода в океанах, реках и озерах из-за глобального потепления стала новой критической угрозой.

21.07 / 16:07

происшествия здоровье общество Эксперт мозг 10 привычек, которые незаметно сокращают вашу жизнь

Вредные привычки сокращают продолжительность нашей жизни. Полный отказ от алкоголя и курения радикально улучшает самочувствие.

21.07 / 16:07

iPhone технологии Apple смартфон деньги Как сэкономить на покупке нового iPhone – ответ экс-сотрудника Apple

Эксперт рассказал, как избежать покупки нового смартфона. Простые настройки и замена батареи вернут устройству былую скорость.

21.07 / 15:47

бизнес общество самит стартап крипто Thinking Machines Lab представила Inkling – open-weights модель с 975 млрд параметров и ставкой на кастомизацию

Стартап Thinking Machines Lab, основанный бывшим CTO OpenAI Мирой Мурати, выпустил свою первую фундаментальную модель — Inkling. Вместо гонки за лидерством в бенчмарках компания делает ставку на открытые веса, мультимодальность и инфраструктуру для глубокой кастомизации моделей под конкретные продукты.

21.07 / 15:46

общество инфографика Блокчейн google крипто Показатель TVL сети Robinhood Chain приблизился к $500 млн за три недели

Общая заблокированная стоимость (TVL) в протоколах сети Robinhood Chain достигла $497,8 млн по состоянию на 21 июля 2026 года, согласно дашборду EntropyAdvisors на портале Dune Analytics. Мейннет блокчейна был запущен в начале месяца. Как следует из инфографики ниже, по показателю не было ни единой просадки с 3 июля 2026 года. Вместе с тем отметим, что портал DeFiLlama дает другое число — $275,8 млн. Такая разница обусловлена тем, что метрика EntropyAdvisors учитывает абсолютно все активы, включая обернутые. Большая часть суммы, отмеченной в дашборде EntropyAdvisors, приходится на стейблкоины — $433,

21.07 / 15:35

продукты технологии BMW общество автомобили Последний танец с сцеплением: почему BMW постепенно отказывается от механических коробок

Казалось бы, во всем виноваты ленивые водители, которые не хотят дергать рычаг в пробках. Однако реальность значительно прозаичнее и «зарегулирована». Пока фанаты бренда оплакивают каждую новую модель без третьей педали, руководство баварского концерна указывает на факторы, которые делают жизнь МКПП практически невозможной в современном мире.

21.07 / 15:35

технологии Qualcomm самит звезда мода и стиль Honor 600 Pro Flash Limited Edition: китайская версия с мобильным аккумулятором на 10 000 мАч в комплекте

Honor решила в очередной раз напомнить всему миру, что «домашний» рынок для нее — это святое, а все остальные могут довольствоваться базовыми версиями. Компания анонсировала лимитированную серию смартфона Honor 600 Pro под названием Flash Limited Edition Gift Box. Эта щедрость будет длиться всего десять дней — с 21 по 31 июля — через официальных партнеров компании.

Лента новостей

На главную страницу