Свежая выжимка ml и AI статей - каждый день
Генерация человеческого движения является ключевым аспектом в таких приложениях, как робототехника, видеоигры и виртуальная реальность. Современные достижения в области искусственного интеллекта (AI) открыли новые горизонты в этой области, позволяя создавать сложные модели движения на основе текстовых описаний и музыкальных произведений. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к созданию движений, которые не соответствуют физическим законам, с явными артефактами, такими как "плавающие" ноги и скольжение по поверхности.
В данной статье мы представляем Morph — бездвижный фреймворк оптимизации физики, который включает в себя генератор движений и модуль Refinement (улучшение) физики движений. Этот подход позволяет улучшить физическую правдоподобность с минимальными затратами на реальные данные о движении. Morph использует синтетические данные для обучения и оптимизации, что делает его более доступным и эффективным.
Существующие модели генерации движений можно разделить на три основные категории: условные модели диффузии, условные авторегрессионные модели и генеративные модели с маскированием. Несмотря на значительный прогресс в захвате сложного многомодального распределения человеческих движений, большинство из них не учитывают физические законы, что приводит к созданию физически неправдоподобных движений.
Физическая правдоподобность относится к степени, в которой сгенерированные движения соответствуют физическим правилам, таким как контакт с землей и отсутствие "плавающих" движений. Это критически важно для многих реальных приложений, таких как анимация и виртуальная реальность.
Некоторые исследования пытались улучшить физическую правдоподобность генерации движений, интегрируя физические ограничения в процесс диффузии. Однако такие подходы часто требуют больших затрат на сбор данных о реальных движениях и не могут быть адаптированы к различным типам генеративных моделей.
Morph состоит из двух основных модулей:
Генератор движений (Motion Generator): Этот модуль может быть любым существующим генератором движений и отвечает за создание большого объема синтетических данных о движении.
Модуль Refinement физики (Motion Physics Refinement): Этот модуль использует синтетические данные для обучения имитатора движений в физическом симуляторе, обеспечивая физические ограничения и проецируя "шумные" движения в физически правдоподобное пространство.
Morph использует двухступенчатый процесс оптимизации:
Генерация шумных данных о движении: На первом этапе генератор создает большой объем синтетических данных о движении. Эти данные используются для обучения модуля Refinement.
Улучшение физической правдоподобности: На втором этапе физически уточненные движения используются для дообучения генератора, что позволяет ему генерировать более реалистичные движения.
Этот процесс позволяет эффективно отделить оптимизацию физики от модели генерации, что значительно снижает вычислительные затраты и делает фреймворк более универсальным.
Morph использует существующий предобученный генератор для создания большого объема шумных данных о движении. Генератор принимает контрольные сигналы, такие как текст или музыка, и создает последовательности движений. Этот этап позволяет создать разнообразные синтетические данные, которые затем используются для обучения модуля Refinement.
Модуль Refinement состоит из трех компонентов:
Имитатор движений: Этот компонент управляет симулированным персонажем и заставляет его имитировать входные шумные движения в физическом симуляторе.
Физический симулятор: Он применяет физические ограничения к сгенерированным движениям, обеспечивая их физическую правдоподобность.
Дискриминатор движений: Этот компонент обучается различать сгенерированные движения и реальные движения, что помогает улучшить естественность и реализм сгенерированных движений.
Процесс обучения имитатора формализуется как задача принятия решений в условиях неопределенности и осуществляется с помощью методов обучения с подкреплением (reinforcement learning).
Обучение имитатора можно представить как марковский процесс принятия решений, где состояние включает в себя текущее положение персонажа, а действия определяются целевыми углами суставов. Награды назначаются на основе того, насколько хорошо сгенерированное движение соответствует входным данным.
На этапе дообучения генератора используются физически уточненные движения, созданные модулем Refinement. Это позволяет улучшить способности генератора к созданию реалистичных движений, что особенно важно, учитывая ограниченность данных о реальных движениях.
Morph был протестирован на двух задачах генерации движений: текст-к-движению и музыка-к-танцу. В экспериментах использовались различные типы генераторов, включая модели на основе диффузии и авторегрессионные модели. Результаты показали, что Morph значительно улучшает физическую правдоподобность, сохраняя при этом конкурентоспособные показатели качества генерации.
Для оценки качества генерации использовались стандартные метрики, такие как Frechet Inception Distance (FID) и R-Precision. Физическая правдоподобность оценивалась с помощью ряда физических метрик, включая показатели "проникновения", "плавания" и "скольжения".
Сравнение Morph с другими современными методами показало, что наш фреймворк значительно превосходит существующие подходы по физической правдоподобности, сохраняя при этом высокое качество генерации. Это подтверждается как количественными, так и качественными результатами.
В данной статье представлен Morph — модель-агностический фреймворк для оптимизации физики, который значительно улучшает физическую правдоподобность в генерации движений без необходимости в дорогих данных о реальных движениях. Используя синтетические данные и двухступенчатый процесс оптимизации, Morph демонстрирует значительные улучшения как в качестве генерации, так и в физической правдоподобности. Этот подход открывает новые возможности для широкого спектра приложений в области анимации, робототехники и виртуальной реальности.