Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео

Трекинг движения в трёхмерном пространстве является одной из ключевых задач в компьютерном зрении, которая имеет множество приложений, от анализа видео до автономного вождения. Однако, несмотря на значительные успехи в области 2D трекинга, трекинг каждого пикселя в 3D пространстве на протяжении всей видео последовательности остаётся сложной задачей. В этом контексте, исследователи из UMass Amherst, Snap Inc. и других учреждений представили новаторский метод под названием DELTA (Dense Efficient Long-range 3D Tracking for Any Video), который обещает революционизировать подход к плотному 3D трекингу.

Основные Концепции DELTA

1. Плотный Трекинг Каждого Пикселя

DELTA разработан для того, чтобы отслеживать каждый пиксель видео в 3D пространстве. Это означает, что метод не ограничивается только ключевыми точками или объектами, но охватывает всю сцену, предоставляя детальную информацию о движении каждого элемента видео.

2. Консистентность в 3D Пространстве

Одной из ключевых особенностей DELTA является обеспечение консистентных траекторий в 3D пространстве. Это достигается через использование глубинных карт (depth maps) и внимательного механизма, который учитывает как глобальные, так и локальные пространственные структуры.

3. Высокая Производительность и Скорость

DELTA превосходит существующие методы по двум важным параметрам:

  • Скорость: DELTA работает более чем в 8 раз быстрее предыдущих методов, что делает его применимым для реального времени или обработки больших объемов видео.
  • Точность: На бенчмарках 3D трекинга, таких как CVO и Kubric3D, DELTA демонстрирует лучшие результаты, улучшив показатели на более чем 10%.

Архитектура DELTA

А. Глобально-Локальное Внимание

DELTA использует совместное глобально-локальное внимание для отслеживания на уменьшенной резолюции. Это позволяет:

  • Уменьшить вычислительную сложность, поскольку внимание применяется к меньшему количеству пикселей.
  • Сохранить детальность и точность трекинга, благодаря учету как глобальных, так и локальных взаимосвязей между пикселями.

Б. Трансформер-Упсемплер

После первоначального трекинга на уменьшенной резолюции, DELTA использует трансформер-упсемплер для восстановления высокой резолюции. Этот подход позволяет:

  • Улучшить качество предсказаний на уровне пикселей.
  • Сохранить чёткость границ движения.

В. Представление Глубины

Исследование влияния различных представлений глубины на точность трекинга привело к выводу, что логарифмическое представление глубины (log-depth) является оптимальным. Это связано с тем, что такое представление:

  • Улучшает точность трекинга вблизи камеры, где ошибки в глубине более заметны.
  • Обеспечивает более устойчивое к шумам представление глубины, что критично для трекинга.

Эксперименты и Результаты

А. Сравнение с Предыдущими Методами

DELTA был тщательно оценён на нескольких бенчмарках:

  • CVO: DELTA показал значительное улучшение по сравнению с методами, такими как RAFT, TAPIR и CoTracker, особенно в задачах длительного трекинга.
  • Kubric3D: На этом синтетическом наборе данных DELTA превзошел методы SpatialTracker и SceneTracker по точности и скорости.
  • TAP-Vid3D: DELTA продемонстрировал превосходство в трекинге 3D точек на реальных видео.

Б. Абляционные Исследования

Абляционные исследования подтвердили важность каждого компонента DELTA:

  • Глобально-локальное внимание оказалось критически важным для достижения высокой точности.
  • Логарифмическое представление глубины значительно улучшило результаты по сравнению с другими представлениями.
  • Трансформер-упсемплер показал себя лучше, чем другие методы апсемплинга, обеспечивая более точные предсказания.

Заключение

DELTA представляет собой значительный шаг вперёд в области плотного 3D трекинга. Его способность эффективно отслеживать каждый пиксель в видео с высокой точностью и скоростью открывает новые возможности для анализа видео, AR/VR приложений, и других областей, где требуется понимание движения в трёхмерном пространстве. Несмотря на некоторые ограничения, такие как зависимость от точности монокулярной оценки глубины, DELTA является мощным инструментом, который обещает значительные улучшения в будущем с развитием технологий глубинной оценки.