Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) продемонстрировала впечатляющие результаты в задачах сегментации объектов, но столкнулась с рядом проблем при использовании для визуального отслеживания объектов (VOT), особенно в условиях скученных сцен с быстро движущимися или самозакрывающимися объектами. Основная проблема заключается в том, что оригинальная модель использует фиксированное окно памяти, не учитывая качество выбранных памятью кадров для условия следующих кадров, что приводит к распространению ошибок в видео. В этой статье представлен SAMURAI — улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. SAMURAI интегрирует временные сигналы движения и механизм выбора памяти с учетом движения, что позволяет эффективно предсказывать движение объектов и улучшать выбор масок, обеспечивая точное и надежное отслеживание без необходимости переобучения или тонкой настройки.

Основные концепции SAMURAI

1. Моделирование движения

SAMURAI использует модель движения, основанную на фильтре Калмана (KF), для улучшения предсказания положения объектов. Это позволяет модели учитывать траекторию объекта и его скорость, что особенно важно в сценах с быстрыми перемещениями или частичными окклюзиями.

  • Фильтр Калмана: Модель использует линейный фильтр Калмана для предсказания состояния объекта, включая его положение и размеры. Вектор состояния объекта включает координаты центра, ширину, высоту и их скорости: [ x = [x, y, w, h, \dot{x}, \dot{y}, \dot{w}, \dot{h}]^T ]
  • Предсказание и коррекция: Фильтр Калмана работает в цикле предсказания и коррекции, где предсказывается следующее состояние объекта, а затем корректируется на основе измерений из текущего кадра.

2. Выбор памяти с учетом движения

Оригинальная модель SAM 2 использует фиксированное окно памяти для хранения последних кадров, что может привести к включению в память некачественных или неактуальных данных. SAMURAI вводит механизм выбора памяти, который учитывает:

  • Скорость сходства маски (Affinity Score): Оценка схожести текущей маски с масками из памяти.
  • Скорость объектов (Object Score): Определение, является ли маска релевантной для отслеживаемого объекта.
  • Скорость движения (Motion Score): Оценка движения объекта на основе его траектории.

Эти три оценки используются для выбора наиболее релевантных кадров для памяти, что повышает точность отслеживания.

3. Нулевой отсчет

SAMURAI работает в режиме нулевого отсчета, что означает, что модель не требует дополнительного обучения или тонкой настройки для работы на новых данных. Это делает её универсальной и легко применимой к различным наборам данных и сценариям без необходимости в повторном обучении.

Экспериментальные результаты

Результаты на бенчмарках

SAMURAI показала значительное улучшение по сравнению с оригинальной моделью SAM 2 и другими методами отслеживания на различных бенчмарках:

  • LaSOT и LaSOT_ext: SAMURAI превзошла все существующие методы по метрикам AUC, Precision, и Normalized Precision, демонстрируя улучшение на 7.1% AUC на LaSOT_ext и 3.5% AO на GOT-10k.
  • GOT-10k: SAMURAI-B и SAMURAI-L показали улучшение на 2.1% и 0.6% по метрике AO соответственно.

Качественные результаты

Визуальные результаты демонстрируют, что SAMURAI способна эффективно отслеживать объекты в сложных условиях, где другие методы сталкиваются с проблемами из-за сходства объектов или частичных окклюзий.

Заключение

SAMURAI представляет собой значительный шаг вперед в области визуального отслеживания объектов, интегрируя моделирование движения и адаптивный выбор памяти в существующую архитектуру SAM 2. Это позволяет модели более точно и надежно отслеживать объекты в реальном времени, даже в сложных сценариях, без необходимости дополнительного обучения. Таким образом, SAMURAI не только улучшает производительность отслеживания, но и демонстрирует потенциал для широкого применения в динамических средах, где требуется высокая точность и надежность.