Эффективное отслеживание объектов в видео с помощью EfficientTrackAnything

В последние годы сегментация и отслеживание объектов в видео стали важными задачами в области компьютерного зрения. С развитием моделей глубокого обучения, таких как Segment Anything Model 2 (SAM2), мы наблюдаем значительные достижения в этой области. Однако, несмотря на их эффективность, многие из этих моделей имеют высокие вычислительные требования, что ограничивает их использование на мобильных устройствах и в реальных приложениях. В этой статье мы рассмотрим новый подход, предложенный в работе EfficientTrackAnything, который направлен на решение этих проблем, используя легкие модели отслеживания объектов.

SAM2 является основополагающей моделью для унифицированной сегментации объектов на изображениях и в видео. Она достигла выдающихся результатов в различных задачах сегментации, включая сегментацию объектов без обучения (zero-shot), полусупервизированную сегментацию видео и интерактивную сегментацию. Основные компоненты SAM2 включают многоступенчатый энкодер изображений для извлечения иерархических признаков и механизм памяти, который помогает поддерживать консистентность сегментации объектов на протяжении видео.

Тем не менее, высокая вычислительная сложность SAM2, особенно из-за многоступенчатого энкодера и модуля памяти, ограничивает его применение на мобильных устройствах. Для решения этой проблемы авторы предлагают EfficientTrackAnything, легкие модели отслеживания объектов, которые обеспечивают высокое качество результатов с низкой задержкой и размером модели.

Архитектура EfficientTrackAnything

EfficientTrackAnything основан на пересмотре обычного, неиерархического Vision Transformer (ViT) в качестве энкодера изображений для сегментации объектов в видео. Он включает в себя эффективный модуль памяти, который снижает сложность как для извлечения признаков, так и для вычислений памяти, что делает его более подходящим для мобильных устройств.

Эффективный энкодер изображений

Вместо использования сложного многоступенчатого энкодера, EfficientTrackAnything применяет легкий ViT, такой как ViT-Tiny или ViT-Small. Эти модели обеспечивают достаточно высокую производительность при значительно меньших вычислительных затратах. Эффективный энкодер изображений позволяет извлекать признаки из каждого кадра видео, что является критическим для задач сегментации и отслеживания.

Эффективный модуль памяти

Модуль памяти в EfficientTrackAnything основан на принципе кросс-внимания, который позволяет интегрировать текущие признаки кадра с сохраненными данными из предыдущих кадров. Однако, в отличие от SAM2, авторы предлагают более эффективный подход к кросс-вниманию, используя структуру пространственных токенов памяти. Это позволяет значительно сократить вычислительные затраты модуля памяти, что делает его более подходящим для реальных приложений.

Эксперименты и результаты

Эффективность предложенной модели была подтверждена в ходе обширных экспериментов на различных бенчмарках сегментации видео, включая MOSE, DAVIS, LVOS и SA-V. Результаты показывают, что EfficientTrackAnything сопоставим с SAM2 по качеству, но при этом обеспечивает примерно в два раза большую скорость работы и в 20 раз меньшее количество параметров.

Сравнение с SAM2

На тестовом наборе SA-V, EfficientTrackAnything показал 74.5% точности по сравнению с 74.7% у SAM2, при этом время обработки одного кадра на EfficientTrackAnything составило всего 261 мс на iPhone 15 Pro Max. Это подчеркивает возможность использования легких моделей для задач сегментации объектов в реальном времени на мобильных устройствах.

Применение на мобильных устройствах

Одним из ключевых аспектов EfficientTrackAnything является его способность работать на мобильных устройствах. Модель может обеспечивать 10 кадров в секунду (FPS) при приемлемом качестве сегментации, что открывает новые возможности для разработчиков мобильных приложений.

Заключение

EfficientTrackAnything представляет собой значительный шаг вперед в области сегментации и отслеживания объектов в видео. Используя легкие модели ViT и эффективные методы кросс-внимания, авторы смогли значительно улучшить производительность и снизить вычислительные затраты, что делает модель подходящей для использования на мобильных устройствах. Результаты экспериментов показывают, что EfficientTrackAnything может успешно конкурировать с более сложными моделями, такими как SAM2, при этом обеспечивая высокую эффективность и скорость работы.

Таким образом, EfficientTrackAnything открывает новые горизонты для применения технологий компьютерного зрения в реальных сценариях, включая мобильные приложения и другие вычислительно ограниченные среды.

Статья на arxiv Оригинал pdf efficiency segmentation parameters

Ай Дайджест