DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Генерация человеческого движения, контролируемого различными сигналами, стала важной областью в компьютерном зрении. Это связано с широкими приложениями в виртуальной реальности, анимации, играх и взаимодействии человека с компьютером. Возможность генерировать реалистичные человеческие движения, которые точно соответствуют входным условиям, таким как текстовые описания, человеческая речь или даже музыка, является ключевой для создания погружающих и интерактивных опытов.

Две критические характеристики определяют успех таких систем: верность и естественность. Верность гарантирует, что сгенерированное движение точно отражает условный сигнал, в то время как естественность подразумевает создание плавных и жизненных движений, которые комфортны и убедительны для человеческих наблюдателей. Однако традиционные подходы к генерации движения сталкиваются с проблемами, связанными с этими характеристиками.

Проблема дискретных и непрерывных методов

Существуют два основных подхода к генерации движения: дискретные и непрерывные. Дискретные методы, такие как VQ-VAE, кодируют движения в дискретные представления, что упрощает обучение высокоразмерных данных, но часто приводит к потере деталей и артефактам, связанным с шумом. Непрерывные методы, наоборот, обеспечивают более плавное и естественное движение, но сталкиваются с проблемами, связанными с высокой размерностью и ограниченными данными для обучения.

Дискретные методы обеспечивают высокую верность, но часто производят менее естественные результаты, такие как недостроение и шум на уровне кадров. Непрерывные методы создают более гладкие и естественные движения, но могут не соответствовать условным сигналам из-за высокой сложности и ограниченности обучающих данных. Это создает "дискорд" между дискретными и непрерывными подходами.

DisCoRD: Новый подход

Для решения этой проблемы был представлен новый метод под названием DisCoRD (Discrete Tokens to Continuous Motion via Rectified Flow Decoding). DisCoRD сочетает сильные стороны как дискретных, так и непрерывных методов, обеспечивая баланс между верностью и естественностью сгенерированного движения.

Метод DisCoRD декодирует дискретные токены движения в непрерывное движение через ректифицированное потоковое декодирование. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает мелкие динамические детали и обеспечивает более плавные и естественные движения. Этот метод совместим с любыми дискретно-ориентированными фреймворками и улучшает естественность без ущерба для верности условным сигналам.

Архитектура DisCoRD

DisCoRD использует ректифицированные потоковые модели, которые позволяют эффективно генерировать движение из дискретных токенов. Основные этапы работы DisCoRD включают:

Токенизация движения: Движение кодируется в последовательность дискретных токенов с использованием VQ-VAE, где каждый токен соответствует определенному движению.
Проекция условий: Дискретные токены проецируются в непрерывное пространство, что позволяет извлекать контекстуальные особенности движения.
Ректифицированное потоковое декодирование: Дискретные токены используются для управления процессом генерации, что позволяет восстанавливать потерянные детали и минимизировать шум.

Оценка качества

Для оценки качества сгенерированных движений, DisCoRD вводит новую метрику, называемую симметричная ошибка джерка (sJPE). Эта метрика предназначена для оценки как недостроения, так и шумов на уровне кадров, что критически важно для генерации движения. В отличие от традиционных метрик, таких как MPJPE, sJPE лучше отражает восприятие человеком естественности движения.

Результаты экспериментов

Эксперименты показали, что DisCoRD достигает состояния наилучшей практики в различных задачах генерации движения, таких как текстовая генерация движения, генерация жестов во время речи и генерация танца под музыку. Результаты оценки показывают, что DisCoRD значительно улучшает естественность сгенерированных движений без потери верности.

Тесты на наборе данных

Для тестирования DisCoRD использовались различные наборы данных, такие как HumanML3D и KIT-ML. Эти наборы данных содержат аннотированные движения, которые позволяют оценить качество сгенерированного движения по различным метрикам. В результате DisCoRD показал значительно лучшие результаты по сравнению с существующими методами.

Сравнение с другими методами

DisCoRD был сравнен с другими современными методами генерации движения, такими как MoMask и MLD. Результаты показали, что DisCoRD не только превосходит конкурентов по метрикам FID и sJPE, но и обеспечивает более естественные и верные движения.

Заключение

DisCoRD представляет собой значительный шаг вперед в области генерации человеческого движения. Сочетая преимущества дискретных и непрерывных методов, он обеспечивает более высокую верность и естественность сгенерированных движений. Введение новой метрики sJPE позволяет более точно оценивать качество движений, что делает DisCoRD универсальным решением для различных задач генерации движения.

В будущем исследователи могут продолжить развивать DisCoRD, исследуя возможности его применения в других областях, таких как анимация, виртуальная реальность и взаимодействие человека с компьютером.

Статья на arxiv Оригинал pdf continuous decoding discrete

Ай Дайджест