Свежая выжимка ml и AI статей - каждый день
Отслеживание точек в видео является одной из сложных задач компьютерного зрения, особенно когда речь идет о длинных видеопотоках с изменяющимися условиями. В недавней работе, представленной авторами Jinyuan Qu и его коллегами, была предложена новая модель TAPTRv3, которая улучшает предыдущую версию TAPTRv2, обеспечивая более надежное отслеживание точек в длинных видео. В этой статье мы подробно рассмотрим основные концепции и достижения TAPTRv3, а также его архитектуру и методы, которые делают его конкурентоспособным на современных наборах данных.
TAPTRv2, основанный на архитектуре DETR (DEtection TRansformer), уже продемонстрировал хорошие результаты в отслеживании точек, однако у него были определенные ограничения. Одной из основных проблем была недостаточная способность извлекать высококачественные признаки из длинных видео, где целевые точки подвергались значительным изменениям во времени. В частности, TAPTRv2 использовал RNN-подобное моделирование для обработки временных данных, что часто вызывало проблему дрейфа признаков.
Дрейф признаков возникает, когда модель теряет точность в отслеживании, особенно в длинных видео. Это может происходить из-за изменения окружения, появления новых объектов или исчезновения отслеживаемой точки из кадра. В TAPTRv2 использовалась модель RNN для обработки временной информации, что не всегда обеспечивало стабильность отслеживания.
TAPTRv3 был разработан с целью устранения недостатков TAPTRv2 и включает несколько ключевых нововведений, которые значительно улучшают его производительность.
Одним из основных улучшений в TAPTRv3 является внедрение операции CCA, которая использует контекстные признаки для улучшения качества внимания при запросе признаков изображения. Вместо использования точечных признаков, CCA применяет патчевые признаки, что позволяет более эффективно устранять отвлекающие факторы и повышать надежность отслеживания.
Для решения проблемы дрейфа признаков в TAPTRv2, TAPTRv3 использует VLTA, который позволяет проводить внимание ко всем предыдущим кадрам, учитывая их видимость. Это обеспечивает более стабильное обновление признаков и улучшает отслеживание точек, даже когда они временно исчезают из кадра.
TAPTRv3 также включает модуль глобального соответствия, который активируется при обнаружении резкой смены сцен (scene cut). Это позволяет модели быстро восстанавливать отслеживание, используя информацию из предыдущих кадров и контекстные признаки.
Процесс отслеживания начинается с подготовки запросов точек. При первом кадре видео пользователь указывает точку, которую необходимо отслеживать. TAPTRv3 извлекает начальные признаки этой точки и окружающего контекста, которые будут использованы для дальнейшего отслеживания.
Когда TAPTRv3 получает новый кадр, он использует обновленные запросы точек для определения местоположения отслеживаемой точки. Модель проходит через несколько слоев трансформера, применяя CCA и VLTA для улучшения точности отслеживания.
TAPTRv3 был протестирован на нескольких сложных наборах данных, включая TAP-Vid и RoboTAP. Результаты показали значительное улучшение по сравнению с TAPTRv2 и другими современными методами. Например, TAPTRv3 достиг лучшей производительности в задачах отслеживания, даже при использовании меньшего объема обучающих данных.
В результате экспериментов TAPTRv3 показал лучшие результаты по основным метрикам, таким как точность видимости и средний индекс Жаккара (AJ). Это подтверждает его эффективность в отслеживании точек в сложных условиях, таких как резкие изменения сцен и временные затруднения.
TAPTRv3 представляет собой значительный шаг вперед в области отслеживания точек в длинных видео. Благодаря внедрению контекстно-осведомленного кросс-внимания и внимания с учетом видимости, модель обеспечивает более надежное и точное отслеживание, что делает ее конкурентоспособной на современных наборах данных. Эти достижения открывают новые возможности для применения TAPTRv3 в различных областях, таких как видеомонтаж, робототехника и анализ данных, полученных из видео.