Ай Дайджест - категория synchronization

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

2024-12-06consistency synchronization attention

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).

2024-12-06framework temporal inference

Мультимодальная генерация звуков для видео: концепция MultiFoley

2024-11-28evaluation artificial training