Свежая выжимка ml и AI статей - каждый день
Трекинг движения в трёхмерном пространстве является одной из ключевых задач в компьютерном зрении, которая имеет множество приложений, от анализа видео до автономного вождения. Однако, несмотря на значительные успехи в области 2D трекинга, трекинг каждого пикселя в 3D пространстве на протяжении всей видео последовательности остаётся сложной задачей. В этом контексте, исследователи из UMass Amherst, Snap Inc. и других учреждений представили новаторский метод под названием DELTA (Dense Efficient Long-range 3D Tracking for Any Video), который обещает революционизировать подход к плотному 3D трекингу.
DELTA разработан для того, чтобы отслеживать каждый пиксель видео в 3D пространстве. Это означает, что метод не ограничивается только ключевыми точками или объектами, но охватывает всю сцену, предоставляя детальную информацию о движении каждого элемента видео.
Одной из ключевых особенностей DELTA является обеспечение консистентных траекторий в 3D пространстве. Это достигается через использование глубинных карт (depth maps) и внимательного механизма, который учитывает как глобальные, так и локальные пространственные структуры.
DELTA превосходит существующие методы по двум важным параметрам:
DELTA использует совместное глобально-локальное внимание для отслеживания на уменьшенной резолюции. Это позволяет:
После первоначального трекинга на уменьшенной резолюции, DELTA использует трансформер-упсемплер для восстановления высокой резолюции. Этот подход позволяет:
Исследование влияния различных представлений глубины на точность трекинга привело к выводу, что логарифмическое представление глубины (log-depth) является оптимальным. Это связано с тем, что такое представление:
DELTA был тщательно оценён на нескольких бенчмарках:
Абляционные исследования подтвердили важность каждого компонента DELTA:
DELTA представляет собой значительный шаг вперёд в области плотного 3D трекинга. Его способность эффективно отслеживать каждый пиксель в видео с высокой точностью и скоростью открывает новые возможности для анализа видео, AR/VR приложений, и других областей, где требуется понимание движения в трёхмерном пространстве. Несмотря на некоторые ограничения, такие как зависимость от точности монокулярной оценки глубины, DELTA является мощным инструментом, который обещает значительные улучшения в будущем с развитием технологий глубинной оценки.