EdgeCape: Революционный подход к категорийно-независимой оценке поз

В области компьютерного зрения оценка позы объектов (Pose Estimation) играет ключевую роль в множестве приложений, от анализа движений человека до отслеживания животных и локализации транспортных средств. Традиционно, модели оценки позы были специфичны для категорий, что ограничивало их применимость к новым или неизученным категориям объектов. Однако, с появлением категорийно-независимой оценки позы (Category-Agnostic Pose Estimation, CAPE), исследователи начали искать способы, позволяющие одной модели локализовать ключевые точки на объектах любой категории с использованием лишь нескольких аннотированных изображений.

Введение в EdgeCape

EdgeCape представляет собой новаторский подход к CAPE, который расширяет возможности графовых моделей за счет предсказания весов ребер графа. Это позволяет оптимизировать локализацию ключевых точек, учитывая структурные зависимости между ними. В отличие от предыдущих методов, которые использовали не взвешенные графы или рассматривали ключевые точки как изолированные сущности, EdgeCape вводит адаптивные взвешенные графы, которые лучше отражают реальную структуру объектов.

Основные концепции

Предсказание весов ребер: Вместо использования фиксированных графов, EdgeCape обучается предсказывать веса ребер графа, что позволяет модели адаптироваться к уникальной структуре каждого объекта. Это особенно полезно для обработки окклюзий и симметрии, поскольку модель может выделить более важные связи между ключевыми точками.
Марковское смещение внимания: EdgeCape интегрирует марковское смещение внимания, которое модифицирует механизм само-внимания в трансформере, учитывая структурные зависимости между узлами графа. Это позволяет модели лучше улавливать глобальные пространственные зависимости.
Использование структурных приоритетов: Модель использует предварительно заданные графы как приоритетную информацию, которую затем уточняет, чтобы улучшить локализацию ключевых точек. Это особенно важно для категорий, которые не были представлены в обучающих данных.

Архитектура EdgeCape

Архитектура EdgeCape включает в себя:

Модуль извлечения признаков: Используется предварительно обученная модель (например, DinoV2 с DPT декодером) для извлечения многоуровневых признаков из поддерживающих и запросных изображений.
Скелетный предсказатель: Этот модуль уточняет входной граф, предсказывая остаточные связи, которые затем комбинируются с исходным графом для получения взвешенного графа.
Графовый предсказатель ключевых точек: Использует уточненный граф для улучшения локализации ключевых точек на запросном изображении.

Оценка на MP-100

EdgeCape был оценен на бенчмарке MP-100, который включает 100 категорий объектов и более 20 тысяч изображений. Модель показала лучшие результаты в 1-выстрельном сценарии и превзошла методы сходного размера в 5-выстрельном сценарии, значительно улучшив точность локализации ключевых точек.

Преимущества и новшества

Адаптивность: Модель может адаптироваться к различным геометриям объектов, предсказывая уникальные для каждого экземпляра графы.
Улучшенная локализация: Предсказание весов ребер и использование марковского смещения внимания позволяет модели лучше справляться с окклюзиями и симметрией.
Эффективность: EdgeCape демонстрирует высокую производительность даже при использовании небольших моделей, что делает его применимым в различных сценариях.

Заключение

EdgeCape представляет собой значительный шаг вперед в области категорийно-независимой оценки позы, предлагая новые подходы к обработке структурных данных. Используя предсказание весов ребер и марковское смещение внимания, модель не только улучшает точность локализации ключевых точек, но и делает это более гибко и адаптивно, чем предыдущие методы. Это открывает новые возможности для применения в реальных задачах, где объекты могут иметь сложные и разнообразные структуры.

Статья на arxiv Оригинал pdf graph self-attention keypoints