Свежая выжимка ml и AI статей - каждый день
Генерация человеческого движения, контролируемого различными сигналами, стала важной областью в компьютерном зрении. Это связано с широкими приложениями в виртуальной реальности, анимации, играх и взаимодействии человека с компьютером. Возможность генерировать реалистичные человеческие движения, которые точно соответствуют входным условиям, таким как текстовые описания, человеческая речь или даже музыка, является ключевой для создания погружающих и интерактивных опытов.
Две критические характеристики определяют успех таких систем: верность и естественность. Верность гарантирует, что сгенерированное движение точно отражает условный сигнал, в то время как естественность подразумевает создание плавных и жизненных движений, которые комфортны и убедительны для человеческих наблюдателей. Однако традиционные подходы к генерации движения сталкиваются с проблемами, связанными с этими характеристиками.
Существуют два основных подхода к генерации движения: дискретные и непрерывные. Дискретные методы, такие как VQ-VAE, кодируют движения в дискретные представления, что упрощает обучение высокоразмерных данных, но часто приводит к потере деталей и артефактам, связанным с шумом. Непрерывные методы, наоборот, обеспечивают более плавное и естественное движение, но сталкиваются с проблемами, связанными с высокой размерностью и ограниченными данными для обучения.
Дискретные методы обеспечивают высокую верность, но часто производят менее естественные результаты, такие как недостроение и шум на уровне кадров. Непрерывные методы создают более гладкие и естественные движения, но могут не соответствовать условным сигналам из-за высокой сложности и ограниченности обучающих данных. Это создает "дискорд" между дискретными и непрерывными подходами.
Для решения этой проблемы был представлен новый метод под названием DisCoRD (Discrete Tokens to Continuous Motion via Rectified Flow Decoding). DisCoRD сочетает сильные стороны как дискретных, так и непрерывных методов, обеспечивая баланс между верностью и естественностью сгенерированного движения.
Метод DisCoRD декодирует дискретные токены движения в непрерывное движение через ректифицированное потоковое декодирование. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает мелкие динамические детали и обеспечивает более плавные и естественные движения. Этот метод совместим с любыми дискретно-ориентированными фреймворками и улучшает естественность без ущерба для верности условным сигналам.
DisCoRD использует ректифицированные потоковые модели, которые позволяют эффективно генерировать движение из дискретных токенов. Основные этапы работы DisCoRD включают:
Для оценки качества сгенерированных движений, DisCoRD вводит новую метрику, называемую симметричная ошибка джерка (sJPE). Эта метрика предназначена для оценки как недостроения, так и шумов на уровне кадров, что критически важно для генерации движения. В отличие от традиционных метрик, таких как MPJPE, sJPE лучше отражает восприятие человеком естественности движения.
Эксперименты показали, что DisCoRD достигает состояния наилучшей практики в различных задачах генерации движения, таких как текстовая генерация движения, генерация жестов во время речи и генерация танца под музыку. Результаты оценки показывают, что DisCoRD значительно улучшает естественность сгенерированных движений без потери верности.
Для тестирования DisCoRD использовались различные наборы данных, такие как HumanML3D и KIT-ML. Эти наборы данных содержат аннотированные движения, которые позволяют оценить качество сгенерированного движения по различным метрикам. В результате DisCoRD показал значительно лучшие результаты по сравнению с существующими методами.
DisCoRD был сравнен с другими современными методами генерации движения, такими как MoMask и MLD. Результаты показали, что DisCoRD не только превосходит конкурентов по метрикам FID и sJPE, но и обеспечивает более естественные и верные движения.
DisCoRD представляет собой значительный шаг вперед в области генерации человеческого движения. Сочетая преимущества дискретных и непрерывных методов, он обеспечивает более высокую верность и естественность сгенерированных движений. Введение новой метрики sJPE позволяет более точно оценивать качество движений, что делает DisCoRD универсальным решением для различных задач генерации движения.
В будущем исследователи могут продолжить развивать DisCoRD, исследуя возможности его применения в других областях, таких как анимация, виртуальная реальность и взаимодействие человека с компьютером.