Свежая выжимка ml и AI статей - каждый день
Модель Segment Anything Model 2 (SAM 2) продемонстрировала впечатляющие результаты в задачах сегментации объектов, но столкнулась с рядом проблем при использовании для визуального отслеживания объектов (VOT), особенно в условиях скученных сцен с быстро движущимися или самозакрывающимися объектами. Основная проблема заключается в том, что оригинальная модель использует фиксированное окно памяти, не учитывая качество выбранных памятью кадров для условия следующих кадров, что приводит к распространению ошибок в видео. В этой статье представлен SAMURAI — улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. SAMURAI интегрирует временные сигналы движения и механизм выбора памяти с учетом движения, что позволяет эффективно предсказывать движение объектов и улучшать выбор масок, обеспечивая точное и надежное отслеживание без необходимости переобучения или тонкой настройки.
SAMURAI использует модель движения, основанную на фильтре Калмана (KF), для улучшения предсказания положения объектов. Это позволяет модели учитывать траекторию объекта и его скорость, что особенно важно в сценах с быстрыми перемещениями или частичными окклюзиями.
Оригинальная модель SAM 2 использует фиксированное окно памяти для хранения последних кадров, что может привести к включению в память некачественных или неактуальных данных. SAMURAI вводит механизм выбора памяти, который учитывает:
Эти три оценки используются для выбора наиболее релевантных кадров для памяти, что повышает точность отслеживания.
SAMURAI работает в режиме нулевого отсчета, что означает, что модель не требует дополнительного обучения или тонкой настройки для работы на новых данных. Это делает её универсальной и легко применимой к различным наборам данных и сценариям без необходимости в повторном обучении.
SAMURAI показала значительное улучшение по сравнению с оригинальной моделью SAM 2 и другими методами отслеживания на различных бенчмарках:
Визуальные результаты демонстрируют, что SAMURAI способна эффективно отслеживать объекты в сложных условиях, где другие методы сталкиваются с проблемами из-за сходства объектов или частичных окклюзий.
SAMURAI представляет собой значительный шаг вперед в области визуального отслеживания объектов, интегрируя моделирование движения и адаптивный выбор памяти в существующую архитектуру SAM 2. Это позволяет модели более точно и надежно отслеживать объекты в реальном времени, даже в сложных сценариях, без необходимости дополнительного обучения. Таким образом, SAMURAI не только улучшает производительность отслеживания, но и демонстрирует потенциал для широкого применения в динамических средах, где требуется высокая точность и надежность.