MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии
Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.