ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры
Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.