TAPTRv3: Улучшение отслеживания точек в длинных видео

Отслеживание точек в видео является одной из сложных задач компьютерного зрения, особенно когда речь идет о длинных видеопотоках с изменяющимися условиями. В недавней работе, представленной авторами Jinyuan Qu и его коллегами, была предложена новая модель TAPTRv3, которая улучшает предыдущую версию TAPTRv2, обеспечивая более надежное отслеживание точек в длинных видео. В этой статье мы подробно рассмотрим основные концепции и достижения TAPTRv3, а также его архитектуру и методы, которые делают его конкурентоспособным на современных наборах данных.

Основные проблемы TAPTRv2

TAPTRv2, основанный на архитектуре DETR (DEtection TRansformer), уже продемонстрировал хорошие результаты в отслеживании точек, однако у него были определенные ограничения. Одной из основных проблем была недостаточная способность извлекать высококачественные признаки из длинных видео, где целевые точки подвергались значительным изменениям во времени. В частности, TAPTRv2 использовал RNN-подобное моделирование для обработки временных данных, что часто вызывало проблему дрейфа признаков.

Проблема дрейфа признаков

Дрейф признаков возникает, когда модель теряет точность в отслеживании, особенно в длинных видео. Это может происходить из-за изменения окружения, появления новых объектов или исчезновения отслеживаемой точки из кадра. В TAPTRv2 использовалась модель RNN для обработки временной информации, что не всегда обеспечивало стабильность отслеживания.

Архитектура TAPTRv3

TAPTRv3 был разработан с целью устранения недостатков TAPTRv2 и включает несколько ключевых нововведений, которые значительно улучшают его производительность.

1. Контекстно-осведомленное кросс-внимание (CCA)

Одним из основных улучшений в TAPTRv3 является внедрение операции CCA, которая использует контекстные признаки для улучшения качества внимания при запросе признаков изображения. Вместо использования точечных признаков, CCA применяет патчевые признаки, что позволяет более эффективно устранять отвлекающие факторы и повышать надежность отслеживания.

2. Внимание с учетом видимости на длинных временных интервалах (VLTA)

Для решения проблемы дрейфа признаков в TAPTRv2, TAPTRv3 использует VLTA, который позволяет проводить внимание ко всем предыдущим кадрам, учитывая их видимость. Это обеспечивает более стабильное обновление признаков и улучшает отслеживание точек, даже когда они временно исчезают из кадра.

3. Глобальное соответствие

TAPTRv3 также включает модуль глобального соответствия, который активируется при обнаружении резкой смены сцен (scene cut). Это позволяет модели быстро восстанавливать отслеживание, используя информацию из предыдущих кадров и контекстные признаки.

Методология TAPTRv3

Подготовка запросов точек

Процесс отслеживания начинается с подготовки запросов точек. При первом кадре видео пользователь указывает точку, которую необходимо отслеживать. TAPTRv3 извлекает начальные признаки этой точки и окружающего контекста, которые будут использованы для дальнейшего отслеживания.

Последовательное отслеживание точек

Когда TAPTRv3 получает новый кадр, он использует обновленные запросы точек для определения местоположения отслеживаемой точки. Модель проходит через несколько слоев трансформера, применяя CCA и VLTA для улучшения точности отслеживания.

Эксперименты и результаты

TAPTRv3 был протестирован на нескольких сложных наборах данных, включая TAP-Vid и RoboTAP. Результаты показали значительное улучшение по сравнению с TAPTRv2 и другими современными методами. Например, TAPTRv3 достиг лучшей производительности в задачах отслеживания, даже при использовании меньшего объема обучающих данных.

Сравнение с другими методами

В результате экспериментов TAPTRv3 показал лучшие результаты по основным метрикам, таким как точность видимости и средний индекс Жаккара (AJ). Это подтверждает его эффективность в отслеживании точек в сложных условиях, таких как резкие изменения сцен и временные затруднения.

Заключение

TAPTRv3 представляет собой значительный шаг вперед в области отслеживания точек в длинных видео. Благодаря внедрению контекстно-осведомленного кросс-внимания и внимания с учетом видимости, модель обеспечивает более надежное и точное отслеживание, что делает ее конкурентоспособной на современных наборах данных. Эти достижения открывают новые возможности для применения TAPTRv3 в различных областях, таких как видеомонтаж, робототехника и анализ данных, полученных из видео.

Статья на arxiv Оригинал pdf attention spatial robustness

Ай Дайджест