Свежая выжимка ml и AI статей - каждый день
В области компьютерного зрения оценка позы объектов (Pose Estimation) играет ключевую роль в множестве приложений, от анализа движений человека до отслеживания животных и локализации транспортных средств. Традиционно, модели оценки позы были специфичны для категорий, что ограничивало их применимость к новым или неизученным категориям объектов. Однако, с появлением категорийно-независимой оценки позы (Category-Agnostic Pose Estimation, CAPE), исследователи начали искать способы, позволяющие одной модели локализовать ключевые точки на объектах любой категории с использованием лишь нескольких аннотированных изображений.
EdgeCape представляет собой новаторский подход к CAPE, который расширяет возможности графовых моделей за счет предсказания весов ребер графа. Это позволяет оптимизировать локализацию ключевых точек, учитывая структурные зависимости между ними. В отличие от предыдущих методов, которые использовали не взвешенные графы или рассматривали ключевые точки как изолированные сущности, EdgeCape вводит адаптивные взвешенные графы, которые лучше отражают реальную структуру объектов.
Предсказание весов ребер: Вместо использования фиксированных графов, EdgeCape обучается предсказывать веса ребер графа, что позволяет модели адаптироваться к уникальной структуре каждого объекта. Это особенно полезно для обработки окклюзий и симметрии, поскольку модель может выделить более важные связи между ключевыми точками.
Марковское смещение внимания: EdgeCape интегрирует марковское смещение внимания, которое модифицирует механизм само-внимания в трансформере, учитывая структурные зависимости между узлами графа. Это позволяет модели лучше улавливать глобальные пространственные зависимости.
Использование структурных приоритетов: Модель использует предварительно заданные графы как приоритетную информацию, которую затем уточняет, чтобы улучшить локализацию ключевых точек. Это особенно важно для категорий, которые не были представлены в обучающих данных.
Архитектура EdgeCape включает в себя:
Модуль извлечения признаков: Используется предварительно обученная модель (например, DinoV2 с DPT декодером) для извлечения многоуровневых признаков из поддерживающих и запросных изображений.
Скелетный предсказатель: Этот модуль уточняет входной граф, предсказывая остаточные связи, которые затем комбинируются с исходным графом для получения взвешенного графа.
Графовый предсказатель ключевых точек: Использует уточненный граф для улучшения локализации ключевых точек на запросном изображении.
EdgeCape был оценен на бенчмарке MP-100, который включает 100 категорий объектов и более 20 тысяч изображений. Модель показала лучшие результаты в 1-выстрельном сценарии и превзошла методы сходного размера в 5-выстрельном сценарии, значительно улучшив точность локализации ключевых точек.
Адаптивность: Модель может адаптироваться к различным геометриям объектов, предсказывая уникальные для каждого экземпляра графы.
Улучшенная локализация: Предсказание весов ребер и использование марковского смещения внимания позволяет модели лучше справляться с окклюзиями и симметрией.
Эффективность: EdgeCape демонстрирует высокую производительность даже при использовании небольших моделей, что делает его применимым в различных сценариях.
EdgeCape представляет собой значительный шаг вперед в области категорийно-независимой оценки позы, предлагая новые подходы к обработке структурных данных. Используя предсказание весов ребер и марковское смещение внимания, модель не только улучшает точность локализации ключевых точек, но и делает это более гибко и адаптивно, чем предыдущие методы. Это открывает новые возможности для применения в реальных задачах, где объекты могут иметь сложные и разнообразные структуры.