FLOAT: Генерация видео с говорящим портретом на основе аудио

С развитием технологий генеративного моделирования, анимация статичных изображений, таких как портреты, с использованием аудиосигналов стала актуальной задачей. Метод, представленный в статье, называется FLOAT (Generative Motion Latent Flow Matching for Audio-driven Talking Portrait). Он позволяет создавать видео с говорящими портретами, используя всего лишь одно исходное изображение и аудиофайл. FLOAT решает задачи, связанные с временной согласованностью и эффективностью генерации, что делает его значительным шагом вперед в области анимации.

Проблематика

Создание анимации из статичного изображения с использованием аудио — это сложная задача, так как существует множество возможных движений, которые могут быть связаны с одним и тем же аудиосигналом. Ранее многие методы сосредотачивались на синхронизации губ и генерации базовых движений головы, но не учитывали множество других аспектов, таких как выражения лица и более тонкие движения. Эти ограничения приводят к недостаточной выразительности и реалистичности анимаций.

FLOAT: Основные концепции

FLOAT использует метод генеративного моделирования, основанный на сопоставлении потоков (flow matching). В отличие от традиционных диффузионных моделей, FLOAT работает в пространстве латентных движений, что позволяет более эффективно генерировать временно согласованные движения. Это достигается за счет использования предсказателя векторного поля на основе трансформера, который учитывает временные зависимости между кадрами.

1. Генеративные модели

Генеративные модели, такие как VAE (Variational Autoencoder) и нормализующие потоки, ранее использовались для создания анимаций, но их выразительность была ограничена. FLOAT предлагает более мощный подход, использующий сопоставление потоков, что позволяет генерировать более качественные и разнообразные движения.

2. Пространство латентных движений

FLOAT переходит от пиксельного латентного пространства к изученному пространству латентных движений. Это позволяет более эффективно моделировать движения, соответствующие аудиосигналам. Метод использует предсказатель векторного поля, который позволяет учитывать временные изменения и генерировать более плавные анимации.

3. Эмоциональная выразительность

Одной из ключевых особенностей FLOAT является возможность интеграции эмоциональных меток, полученных из аудио. Это позволяет создавать более естественные и выразительные движения, соответствующие эмоциональному контексту речи. FLOAT использует заранее обученную модель для предсказания эмоций на основе аудио, что значительно улучшает качество анимации.

Методология

FLOAT состоит из двух основных этапов: предварительное обучение автоэнкодера движений и генерация последовательности латентных движений с использованием сопоставления потоков.

Этап 1: Автоэнкодер движений

На первом этапе FLOAT обучает автоэнкодер, который создает выразительное и гладкое латентное пространство для движений. Этот автоэнкодер обучается на видеоданных, что позволяет ему захватывать как глобальные, так и локальные динамики движений. Это критически важно для создания качественных анимаций, так как требуется учитывать как общие движения головы, так и более тонкие выражения лица.

Этап 2: Генерация движений

На втором этапе FLOAT использует предсказатель векторного поля для генерации последовательности латентных движений на основе аудиосигнала. Этот предсказатель, построенный на основе архитектуры трансформера, позволяет учитывать временные зависимости и генерировать движения, соответствующие аудиосигналу.

Результаты

Эксперименты, проведенные с использованием FLOAT, показывают, что он превосходит существующие методы генерации говорящих портретов по многим критериям, включая визуальное качество, точность движений и эффективность. FLOAT демонстрирует значительное сокращение времени генерации видео, что делает его более практичным для применения в реальных сценариях, таких как видеоконференции и создание аватаров.

Заключение

FLOAT представляет собой значительный шаг вперед в области генерации говорящих портретов на основе аудио. Его способность эффективно генерировать временно согласованные движения и учитывать эмоциональный контекст речи открывает новые возможности для анимации и взаимодействия с пользователями. В будущем метод может быть расширен для работы с более сложными сценариями, включая многопользовательские взаимодействия и более тонкие эмоциональные выражения.

Статья на arxiv Оригинал pdf generative animation model

Ай Дайджест