Свежая выжимка ml и AI статей - каждый день
Создание реалистичных и анимируемых аватаров является актуальной задачей в области дополненной (AR) и виртуальной реальности (VR). Эти технологии находят применение в различных сферах, таких как телеприсутствие и погружающие видеоконференции. Однако большинство существующих методов требуют значительных затрат времени на сбор данных, что делает их непрактичными для повседневного использования. В данной статье мы рассмотрим метод, предложенный в работе "OneShot, OneTalk", который позволяет создавать говорящих аватаров на основе всего лишь одного изображения.
Люди используют сложные жесты и выражения лиц для общения. Для моделирования этих движений в 3D-пространстве часто применяются параметры, такие как SMPL-X, которые интегрируют несколько предыдущих моделей. Эти модели требуют обширного набора данных, состоящего из многократных видеозаписей или самопроизвольных поворотных видео, что делает их трудоемкими в использовании.
Еще одной важной проблемой является способность моделей обобщать новые жесты и выражения, которые не были представлены в обучающих данных. Современные методы часто ограничены набором жестов, что приводит к плохой синтезе движений, которые не были должным образом представлены на этапе обучения.
Предложенный метод состоит из нескольких ключевых этапов:
Для генерации псевдозаписей используются данные из TED Gesture Dataset. Мы обрабатываем эти данные, чтобы создать обширное пространство движений для людей, говорящих. Затем эти движения используются для управления генерацией видеозаписей, где целевой человек выполняет различные жесты и выражения.
Аватар представляется как сочетание 3DGS и SMPL-X. Это позволяет эффективно интегрировать геометрические приоритеты и регуляризацию поверхности, что обеспечивает высокую выразительность и реалистичное отображение.
Важным аспектом является применение регуляризаций, которые помогают избежать переобучения на одном изображении и улучшить интеграцию различных модулей. Мы используем несколько типов потерь, таких как нормальная согласованность и маска потерь, которые помогают регулировать поведение деформационного поля.
Для обучения используются позы и выражения, обработанные из 100 видеозаписей TED Gesture Dataset. Для оценки используются одноразовые входные данные и управляющие позы, взятые из Actor's HQ и Casual Conversations Dataset.
Мы сравниваем наш метод с несколькими другими подходами, такими как ExAvatar, ELICIT и MimicMotion. Результаты показывают, что наш метод значительно превосходит другие в плане реалистичности и стабильности анимации. В частности, мы достигаем точной анимации с сохранением тонких деталей и идентичности.
Качественные сравнения показывают, что наш метод обеспечивает более точную анимацию, особенно в области лица и рук. Количественные метрики, такие как среднеквадратичная ошибка (MSE) и PSNR, также подтверждают превосходство нашего подхода.
В данной работе был представлен новый метод создания выразительных говорящих аватаров из одного изображения. Мы предложили гибридное представление аватара, которое сочетает в себе 3DGS и SMPL-X, а также ключевые регуляризации, которые обеспечивают стабильность и реалистичность анимации. Результаты экспериментов показывают, что наш метод превосходит существующие технологии, что открывает новые возможности для практического применения говорящих аватаров в различных областях.
Несмотря на достигнутые успехи, наш метод зависит от точной регистрации между входным изображением и параметрической моделью человека. В будущем мы планируем исследовать интеграцию семантической информации из больших языковых моделей и статических приоритетов из 3D-реконструкции для решения этих проблем.