Nvidia открыла исходный код технологии Audio2Face
Nvidia объявила об открытии исходного кода Audio2Face — технологии на базе искусственного интеллекта, которая создаёт реалистичные анимации лица на основе звукового ввода. Компания объяснила своё решение стремлением ускорить внедрение аватаров на базе ИИ в видеоигры и 3D-приложения.
Audio2Face анализирует акустические характеристики, такие как фонемы и интонации, чтобы создать поток анимационных данных, которые затем сопоставляются с мимикой персонажа. Эти данные можно визуализировать офлайн для заранее подготовленного контента или транслировать в режиме реального времени для ИИ-персонажей, обеспечивая точную синхронизацию губ и эмоциональную выразительность.
Также Nvidia открыла исходный код фреймворка для обучения Audio2Face, чтобы любой желающий мог дорабатывать и настраивать готовые модели компании для конкретных сценариев использования.
Полный набор инструментов с открытым исходным кодом от Nvidia:
Технология открытого исходного кода позволяет разработчикам, студентам и исследователям изучить и развивать современный код. Такой подход создаёт обратную связь, обеспечивая сообщество возможностью добавлять новые функции и оптимизировать технологию для различных сценариев использования, написали в Nvidia. Компания призвала присоединяться к сообществу разработчиков Audio2Face в Discord и делиться своими работами.
Технологию широко применяют в игровой сфере, медиа и индустрии развлечений, а также в сегменте обслуживания клиентов. В свои продукты Audio2Face интегрировали Convai, Codemasters, GSC Games World, Inworld AI, NetEase, Reallusion, Perfect World Games, Streamlabs, UneeQ Digital Human и другие студии.
Компания-разработчик платформы для создания 3D-персонажей Reallusion интегрировала Audio2Face в свой набор инструментов.
Читать на habr.com