



Маск стирает грань: Grok Imagine научился синхронизировать губы и генерировать звук
Илон Маск (Elon Musk) продолжает превращать свою соцсеть X в выставку достижений нейросетевого хозяйства. На этот раз обновление коснулось Grok Imagine — инструмента, который теперь не просто рисует картинки, а создает видео, где персонажи разговаривают и звучат слишком убедительно для нашего спокойного сна.
Главная проблема большинства генеративных видеомоделей — это эффект «зловещей долины», когда глаза вроде человеческие, а движения губ живут собственной жизнью, отдельно от звуковой дорожки. В последнем обновлении xAI, похоже, решили эту проблему. Теперь Grok Imagine значительно лучше синхронизирует мимику с речью и, что важнее, самостоятельно добавляет реалистичный звук.
Сам Маск, презентуя возможности модели на своей странице в X, подчеркнул: в продемонстрированном ролике нет ни одного реального кадра. Всё — от первого до последнего пикселя и звуковой волны — создано алгоритмами. Это делает фейковые ролики практически неотличимыми от настоящих съёмок, что вновь поднимает вопрос о верификации контента в сети.
Grok Imagine now has dramatically improved lip sync and sharper audio quality on all image-to-video generations.
Dialogue tracks the mouth. Sound matches the scene. Your videos look and sound the way you imagined them. pic.twitter.com/lv4Y4ziECb
Темпы, с которыми развивается Grok Imagine, заставляют конкурентов нервно проверять свои серверы. Лишь за последние несколько недель нейросеть получила ряд существенных улучшений:
Пока Grok Imagine развлекает публику генерацией реалистичных говорящих голов, материнская компания xAI работает над более приземленными, но важными инструментами. Недавно представленная версия Grok 4.3 сосредоточена на практических функциях для работы, а API Grok Speech to Text (STT) стал
Читать на gagadget.com