DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео
Отслеживание плотного 3D движения с монокулярных видеозаписей остается сложной задачей, особенно когда целью является точность на уровне пикселей в течение длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения по всему видео. Наш подход использует совместный глобально-локальный механизм внимания для отслеживания с пониженным разрешением, за которым следует апсемплер на основе трансформера для достижения высокоточных прогнозов в высоком разрешении. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в большом масштабе, работая более чем в 8 раз быстрее предыдущих методов и достигая рекордной точности. Более того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких тестовых площадках, достигая новых рекордных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предлагает надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.