OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров является актуальной задачей в области дополненной (AR) и виртуальной реальности (VR). Эти технологии находят применение в различных сферах, таких как телеприсутствие и погружающие видеоконференции. Однако большинство существующих методов требуют значительных затрат времени на сбор данных, что делает их непрактичными для повседневного использования. В данной статье мы рассмотрим метод, предложенный в работе "OneShot, OneTalk", который позволяет создавать говорящих аватаров на основе всего лишь одного изображения.

Проблематика

Комплексное динамическое моделирование

Люди используют сложные жесты и выражения лиц для общения. Для моделирования этих движений в 3D-пространстве часто применяются параметры, такие как SMPL-X, которые интегрируют несколько предыдущих моделей. Эти модели требуют обширного набора данных, состоящего из многократных видеозаписей или самопроизвольных поворотных видео, что делает их трудоемкими в использовании.

Генерализация на новые жесты и выражения

Еще одной важной проблемой является способность моделей обобщать новые жесты и выражения, которые не были представлены в обучающих данных. Современные методы часто ограничены набором жестов, что приводит к плохой синтезе движений, которые не были должным образом представлены на этапе обучения.

Методология

Пайплайн

Предложенный метод состоит из нескольких ключевых этапов:

Генерация псевдозаписей: Используя предварительно обученные модели диффузии, мы создаем неполные видеозаписи, которые служат псевдозаписями для анимации аватара.
Гибридное представление аватара: Вводится новая концепция, основанная на 3D Gaussian Splatting (3DGS), которая объединяет преимущества параметрических моделей и гибридных представлений для улучшения анимации.
Регуляризация: Для устранения несоответствий, возникающих из-за использования несовершенных псевдозаписей, применяются ключевые регуляризации, которые помогают стабилизировать процесс оптимизации.

Генерация псевдозаписей

Для генерации псевдозаписей используются данные из TED Gesture Dataset. Мы обрабатываем эти данные, чтобы создать обширное пространство движений для людей, говорящих. Затем эти движения используются для управления генерацией видеозаписей, где целевой человек выполняет различные жесты и выражения.

Гибридное представление аватара

Аватар представляется как сочетание 3DGS и SMPL-X. Это позволяет эффективно интегрировать геометрические приоритеты и регуляризацию поверхности, что обеспечивает высокую выразительность и реалистичное отображение.

Регуляризация

Важным аспектом является применение регуляризаций, которые помогают избежать переобучения на одном изображении и улучшить интеграцию различных модулей. Мы используем несколько типов потерь, таких как нормальная согласованность и маска потерь, которые помогают регулировать поведение деформационного поля.

Экспериментальные результаты

Данные

Для обучения используются позы и выражения, обработанные из 100 видеозаписей TED Gesture Dataset. Для оценки используются одноразовые входные данные и управляющие позы, взятые из Actor's HQ и Casual Conversations Dataset.

Сравнение с представительными методами

Мы сравниваем наш метод с несколькими другими подходами, такими как ExAvatar, ELICIT и MimicMotion. Результаты показывают, что наш метод значительно превосходит другие в плане реалистичности и стабильности анимации. В частности, мы достигаем точной анимации с сохранением тонких деталей и идентичности.

Качественные и количественные сравнения

Качественные сравнения показывают, что наш метод обеспечивает более точную анимацию, особенно в области лица и рук. Количественные метрики, такие как среднеквадратичная ошибка (MSE) и PSNR, также подтверждают превосходство нашего подхода.

Заключение

В данной работе был представлен новый метод создания выразительных говорящих аватаров из одного изображения. Мы предложили гибридное представление аватара, которое сочетает в себе 3DGS и SMPL-X, а также ключевые регуляризации, которые обеспечивают стабильность и реалистичность анимации. Результаты экспериментов показывают, что наш метод превосходит существующие технологии, что открывает новые возможности для практического применения говорящих аватаров в различных областях.

Ограничения и будущее

Несмотря на достигнутые успехи, наш метод зависит от точной регистрации между входным изображением и параметрической моделью человека. В будущем мы планируем исследовать интеграцию семантической информации из больших языковых моделей и статических приоритетов из 3D-реконструкции для решения этих проблем.

Статья на arxiv Оригинал pdf modeling diffusion avatar

Ай Дайджест