Свежая выжимка ml и AI статей - каждый день
Анимация человеческих изображений с использованием видео-драйверов стала одной из актуальных задач в области компьютерного зрения и генеративного моделирования. В данной статье рассматривается метод DisPose, который предлагает новый подход к управлению анимацией, позволяя более эффективно работать с позами и движениями.
Контролируемая анимация человеческих изображений нацелена на преобразование статичных изображений в динамичные видео, основываясь на движениях, представленных в видео-драйверах. Основная проблема заключается в том, что традиционные методы управления позами ограничены в своих возможностях и часто требуют дополнительных данных, таких как карты глубины, что может ухудшать качество сгенерированных видео, особенно когда форма тела в референсном изображении значительно отличается от формы в видео-драйвере.
Существующие методы, такие как DensePose и SMPL, пытаются предоставить более плотные условия для управления движением. Однако такие подходы налагают строгие геометрические ограничения, что делает их трудными для адаптации к различным формам тел. Это приводит к ошибкам в оценке позы и снижению качества генерации видео.
DisPose предлагает решение, которое позволяет извлекать более универсальные сигналы управления только из карт позы и референсных изображений, избегая необходимости в дополнительных плотных входных данных. Метод дисентанглирует управление позой на две составляющие: поле движения и соответствие ключевых точек.
DisPose состоит из нескольких ключевых компонентов:
Оценка поля движения: Сначала мы оцениваем скелетную позу с использованием DWpose, чтобы получить координаты ключевых точек для каждого кадра. Затем мы отслеживаем смещения движения ключевых точек на протяжении видео.
Создание плотного поля движения: На основе разреженного поля движения создается плотное поле, которое обеспечивает более детализированные сигналы управления движением, сохраняя при этом общие характеристики разреженной позы.
Извлечение ключевых точек: Из референсного изображения извлекаются диффузионные признаки, соответствующие ключевым точкам. Эти признаки затем передаются на целевую позу для обеспечения идентификационной информации.
Для того чтобы интегрировать полученные сигналы управления в существующие модели, предлагается гибридная архитектура ControlNet. Она позволяет улучшить качество и согласованность сгенерированных видео, замораживая параметры существующей модели.
В рамках экспериментов DisPose был протестирован на нескольких наборах данных, включая TikTok, где была проведена оценка по различным метрикам, таким как FID-FVD и FVD. Результаты показали, что DisPose значительно превосходит существующие методы по качеству генерации видео.
В качественных сравнительных тестах DisPose продемонстрировал способность создавать разнообразные анимации, сохраняя согласованность внешнего вида. Этот подход оказался более эффективным, чем методы, основанные на плотных условиях, которые часто приводили к искажениям и несогласованности.
Несмотря на успехи, DisPose имеет свои ограничения. Например, способность синтезировать невидимые части для персонажей остается ограниченной. В будущем планируется исследовать возможность управления камерой и синтезирования многовидовых моделей для захвата многовидовой информации.
DisPose представляет собой значительный шаг вперед в области контролируемой анимации человеческих изображений. Метод, дисентанглирующий управление позой на поле движения и соответствие ключевых точек, демонстрирует высокую эффективность и универсальность. Это открывает новые горизонты для применения в искусстве, социальных медиа и создании цифровых персонажей.
В заключение, DisPose не только улучшает качество анимации, но и предоставляет инструменты для более гибкого и интуитивного управления движением, что делает его ценным дополнением к существующим методам в области генеративного моделирования.