MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

С недавними достижениями в области генерации видео с использованием диффузионных моделей, возможности создания реалистичных говорящих видео, синхронизированных с аудио, стали более доступными. Однако, несмотря на эти достижения, остаются значительные вызовы, такие как обеспечение бесшовной синхронизации губ и аудио, поддержание долгосрочной согласованности идентичности и создание естественных выражений, соответствующих эмоциональному содержанию аудио. В данной статье мы рассмотрим метод MEMO (Memory-guided EMOtion-aware diffusion), который представляет собой подход к аудио-ориентированной анимации портретов, обеспечивающий генерируемые видео с согласованной идентичностью и выразительными эмоциями.

Проблема и предшествующие работы

Генерация говорящих видео на основе аудио требует синхронизации движений губ и реалистичных движений головы, а также сохранения долгосрочной согласованности идентичности. Ранее существующие методы, такие как EMO и Hallo, использовали кросс-внимание для интеграции аудио в процесс генерации видео, однако они сталкивались с проблемами, связанными с накоплением ошибок во времени и ограниченной синхронизацией губ. Эти проблемы усугубляются, когда используются только 2-4 предыдущих кадра для условной генерации, что приводит к ошибкам и искажениям.

Основные компоненты MEMO

MEMO включает два ключевых модуля:

Модуль временной памяти: Этот модуль улучшает долгосрочную согласованность идентичности и плавность движений, используя состояния памяти для хранения информации из более раннего контекста. Это позволяет модели использовать информацию о движениях из более длительного прошлого для управления временным моделированием с помощью линейного внимания.
Модуль, учитывающий эмоции: Этот модуль заменяет традиционное кросс-внимание на многомодальное внимание, что улучшает взаимодействие между аудио и видео. Он также позволяет обнаруживать эмоции из аудио для уточнения выражений лиц с помощью адаптивной нормализации слоя.

Методология

Модуль временной памяти

Традиционные методы генерации видео используют авторегрессионный подход, который требует сегментации аудио на клипы и использования предыдущих кадров для генерации следующих. MEMO, в отличие от этого, использует линейное внимание, что позволяет эффективно обрабатывать длинные последовательности и избегать накопления ошибок.

Линейное внимание

Линейное внимание позволяет обрабатывать большие объемы данных без увеличения затрат на память, что делает его более подходящим для работы с длинными временными последовательностями. Это достигается путем использования матриц памяти для хранения информации о предыдущих кадрах и их влияния на текущую генерацию.

Модуль, учитывающий эмоции

Этот модуль использует многомодальное внимание для улучшения взаимодействия между аудио и видео. Вместо фиксированных аудио-характеристик, модуль динамически определяет эмоциональные сигналы из аудио, что позволяет более точно настраивать выражения лиц в зависимости от эмоционального контекста.

Динамическое обнаружение эмоций

Модуль обнаружения эмоций обучается на разнообразном наборе данных для распознавания различных эмоций, таких как гнев, радость и печаль. Эти эмоции затем интегрируются в процесс генерации видео, что позволяет создавать более выразительные и эмоционально насыщенные результаты.

Эксперименты и результаты

Оценка производительности

MEMO был протестирован на двух наборах данных вне распределения (OOD). Результаты показывают, что MEMO значительно превосходит существующие методы по показателям качества видео и синхронизации губ. Оценки, такие как Fréchet Video Distance (FVD) и Fréchet Inception Distance (FID), подтверждают высокое качество генерируемых видео.

Человеческая оценка

В дополнение к количественным результатам, были проведены человеческие оценки, которые подтвердили, что MEMO демонстрирует лучшие результаты по всем критериям, включая общую качество, плавность движений и согласованность идентичности.

Качественные результаты

MEMO продемонстрировал свою способность генерировать разнообразные и выразительные движения головы, а также синхронизированные движения губ для различных типов аудио, включая речь, песни и рэп. Это подтверждает его универсальность и способность адаптироваться к различным контекстам.

Заключение

MEMO представляет собой значительный шаг вперед в области генерации говорящих видео. Используя инновационные модули временной памяти и учета эмоций, этот метод решает многие проблемы, с которыми сталкиваются существующие подходы, обеспечивая высокое качество и выразительность генерируемых видео. В будущем интересным направлением будет изучение возможности применения данного подхода для генерации говорящих тел и других более сложных задач в области компьютерного зрения и машинного обучения.

Статья на arxiv Оригинал pdf animation attention modeling

Ай Дайджест