Morph: Бездвижный Физический Оптимизационный Фреймворк для Генерации Человеческого Движения

Генерация человеческого движения является ключевым аспектом в таких областях, как робототехника, видеоигры и виртуальная реальность. С недавним развитием технологий AI, включая большие языковые модели (LLM) и диффузионные модели, появились новые подходы к генерации движений, которые могут учитывать различные условия управления, включая текстовые описания и музыкальные произведения. Однако большинство существующих методов не учитывают физические ограничения, что приводит к созданию физически неправдоподобных движений, таких как скольжение ног, "плавающие" движения и другие артефакты.

В данной статье мы представляем Morph, бездвижный физический оптимизационный фреймворк, который включает в себя генератор движений и модуль физической доработки движений для повышения физической правдоподобности без необходимости в дорогостоящих данных о реальных движениях. Morph использует синтетические данные для обучения модели, которая затем может улучшать качество сгенерированных движений.

Архитектура Morph

Morph состоит из двух основных модулей:

Генератор движений (MG), который может быть любым существующим генератором движений.
Модуль физической доработки движений (MPR), который улучшает физическую правдоподобность сгенерированных движений.

Этапы оптимизации

Morph использует двухступенчатый процесс оптимизации. На первом этапе модуль MPR обучается на больших объемах синтетических шумных данных, созданных генератором движений. MPR проецирует входные движения в физически правдоподобное пространство, используя физический симулятор для обеспечения соблюдения физических законов, таких как контакт с землей и отсутствие скольжения ног.

На втором этапе физически доработанные движения используются для дообучения генератора движений, что улучшает его способности к генерации реалистичных движений. Этот процесс позволяет эффективно отделить физическую оптимизацию от модели генерации, что делает его более экономичным и универсальным.

Синтетические данные и физическая доработка

Генерация шумных движений

Morph использует существующий предобученный генератор движений для создания больших объемов шумных данных, которые затем используются для обучения MPR. Это позволяет избежать необходимости в сборе больших объемов реальных данных, что является дорогостоящим и трудоемким процессом.

Физическая доработка движений

Модуль MPR включает в себя три компонента:

Имитация движений: этот компонент управляет симулированным персонажем, который имитирует входные движения в физическом симуляторе.
Физический симулятор: обеспечивает соблюдение физических законов, таких как закон сохранения энергии и взаимодействие с окружающей средой.
Дискриминатор движений: этот компонент помогает выравнивать распределение физически доработанных движений с распределением входных движений, что улучшает естественность и реалистичность сгенерированных движений.

Обучение имитатора движений формулируется как задача принятия решений в рамках марковского процесса, где состояние включает информацию о текущем положении и скорости персонажа. Дискриминатор движений обучается различать входные и сгенерированные движения, что помогает улучшить качество выходных данных.

Обучение и тестирование Morph

Обучение MPR

Обучение MPR происходит в два этапа. На первом этапе используется генератор для создания шумных данных, которые затем используются для обучения имитатора движений. На втором этапе физически доработанные движения используются для дообучения генератора, что позволяет улучшить его качество генерации.

Тестирование Morph

Morph тестируется на двух задачах генерации движений: генерации движений из текста и генерации танцев из музыки. В ходе тестирования Morph продемонстрировал значительные улучшения в физических метриках, таких как снижение уровня артефактов (например, скольжение ног и "плавающие" движения) при сохранении конкурентоспособных результатов по общим метрикам генерации.

Результаты экспериментов

Morph был протестирован на различных моделях генерации движений, включая диффузионные и авторегрессионные модели. Результаты показали, что Morph значительно улучшает физическую правдоподобность, сохраняя при этом высокое качество генерации. Например, в задаче генерации движений из текста Morph достиг значительных улучшений по сравнению с существующими методами, такими как PhysDiff и Reindiffuse.

Метрики оценки

Для оценки качества сгенерированных движений использовались как общие метрики генерации (такие как FID и R-Precision), так и физические метрики (такие как уровень скольжения ног и "плавающие" движения). Результаты показали, что Morph не только улучшает физическую правдоподобность, но и сохраняет высокое качество генерации.

Заключение

Morph представляет собой модель-агностический физический оптимизационный фреймворк, который значительно улучшает физическую правдоподобность в генерации движений без необходимости в реальных данных о движениях. Используя синтетические данные и модуль физической доработки, Morph демонстрирует значительные улучшения как в физических, так и в общих метриках генерации. Этот подход открывает новые возможности для применения в таких областях, как робототехника, анимация и виртуальная реальность, предлагая более реалистичные и физически обоснованные движения.

Статья на arxiv Оригинал pdf refinement motion generation

Ай Дайджест