Свежая выжимка ml и AI статей - каждый день
Генерация человеческого движения является ключевым аспектом в таких областях, как робототехника, видеоигры и виртуальная реальность. С недавним развитием технологий AI, включая большие языковые модели (LLM) и диффузионные модели, появились новые подходы к генерации движений, которые могут учитывать различные условия управления, включая текстовые описания и музыкальные произведения. Однако большинство существующих методов не учитывают физические ограничения, что приводит к созданию физически неправдоподобных движений, таких как скольжение ног, "плавающие" движения и другие артефакты.
В данной статье мы представляем Morph, бездвижный физический оптимизационный фреймворк, который включает в себя генератор движений и модуль физической доработки движений для повышения физической правдоподобности без необходимости в дорогостоящих данных о реальных движениях. Morph использует синтетические данные для обучения модели, которая затем может улучшать качество сгенерированных движений.
Morph состоит из двух основных модулей:
Morph использует двухступенчатый процесс оптимизации. На первом этапе модуль MPR обучается на больших объемах синтетических шумных данных, созданных генератором движений. MPR проецирует входные движения в физически правдоподобное пространство, используя физический симулятор для обеспечения соблюдения физических законов, таких как контакт с землей и отсутствие скольжения ног.
На втором этапе физически доработанные движения используются для дообучения генератора движений, что улучшает его способности к генерации реалистичных движений. Этот процесс позволяет эффективно отделить физическую оптимизацию от модели генерации, что делает его более экономичным и универсальным.
Morph использует существующий предобученный генератор движений для создания больших объемов шумных данных, которые затем используются для обучения MPR. Это позволяет избежать необходимости в сборе больших объемов реальных данных, что является дорогостоящим и трудоемким процессом.
Модуль MPR включает в себя три компонента:
Обучение имитатора движений формулируется как задача принятия решений в рамках марковского процесса, где состояние включает информацию о текущем положении и скорости персонажа. Дискриминатор движений обучается различать входные и сгенерированные движения, что помогает улучшить качество выходных данных.
Обучение MPR происходит в два этапа. На первом этапе используется генератор для создания шумных данных, которые затем используются для обучения имитатора движений. На втором этапе физически доработанные движения используются для дообучения генератора, что позволяет улучшить его качество генерации.
Morph тестируется на двух задачах генерации движений: генерации движений из текста и генерации танцев из музыки. В ходе тестирования Morph продемонстрировал значительные улучшения в физических метриках, таких как снижение уровня артефактов (например, скольжение ног и "плавающие" движения) при сохранении конкурентоспособных результатов по общим метрикам генерации.
Morph был протестирован на различных моделях генерации движений, включая диффузионные и авторегрессионные модели. Результаты показали, что Morph значительно улучшает физическую правдоподобность, сохраняя при этом высокое качество генерации. Например, в задаче генерации движений из текста Morph достиг значительных улучшений по сравнению с существующими методами, такими как PhysDiff и Reindiffuse.
Для оценки качества сгенерированных движений использовались как общие метрики генерации (такие как FID и R-Precision), так и физические метрики (такие как уровень скольжения ног и "плавающие" движения). Результаты показали, что Morph не только улучшает физическую правдоподобность, но и сохраняет высокое качество генерации.
Morph представляет собой модель-агностический физический оптимизационный фреймворк, который значительно улучшает физическую правдоподобность в генерации движений без необходимости в реальных данных о движениях. Используя синтетические данные и модуль физической доработки, Morph демонстрирует значительные улучшения как в физических, так и в общих метриках генерации. Этот подход открывает новые возможности для применения в таких областях, как робототехника, анимация и виртуальная реальность, предлагая более реалистичные и физически обоснованные движения.