Исследование открытого мира сегментации частей объектов в 3D

В последние годы искусственный интеллект (AI) и машинное обучение (ML) значительно продвинулись в понимании и взаимодействии с двухмерными изображениями. Однако, когда речь заходит о трехмерных (3D) данных, такие задачи, как сегментация частей объектов, остаются сложными из-за недостатка данных и методов, которые могли бы работать в открытом мире, где объекты и их части могут быть произвольными. В этом контексте, исследование, проведенное Ziqi Ma и соавторами из Калифорнийского технологического института, представляет собой важный шаг вперед в области 3D сегментации.

Основные понятия

Открытый мир (Open-World): В контексте этой работы, открытый мир означает, что модель должна быть способна работать с любыми объектами и любыми запросами на сегментацию частей, без ограничения на определенные категории или заранее известные части.

Сегментация частей (Part Segmentation): Это процесс разделения 3D объекта на его составные части, например, ручка у чайника или колесо у автомобиля.

Data Engine: Это инструмент, использующий модели машинного обучения для автоматической аннотации 3D данных. В данном случае, он использует 2D модели, такие как SAM (Segment Anything Model) и Gemini, для создания меток частей объектов на основе их визуализаций.

Обучение с контрастивной функцией потерь (Contrastive Learning): Метод обучения, где модель учится различать похожие и непохожие примеры, что позволяет ей лучше понимать и сегментировать части объектов.

Методология

FIND 3D: Это название предложенной модели, которая позволяет выполнять сегментацию частей в 3D пространстве на основе текстовых запросов. Модель использует:

Предобученные модели для языка и визуализации (LLM и Vision Models): Например, CLIP и SigLIP для встраивания текстовых запросов в пространство признаков, где они могут быть сопоставлены с признаками точек облака.
Трансформерная архитектура: Для обработки последовательностей точек облака, используется архитектура трансформера, адаптированная для 3D данных.
Контрастивный подход к обучению: Модель обучается на парах (точки, текстовые метки), где текстовые метки встраиваются в пространство признаков, а точки облака сопоставляются с этими встроенными метками для сегментации.

Результаты и Вклады

Высокая производительность: FIND 3D показывает улучшение в mIoU (mean Intersection over Union) до 3 раз по сравнению с лучшими существующими методами.
Скорость: Модель значительно быстрее, чем другие методы, предлагая ускорение от 6 до более чем 300 раз.
Генерализация: Модель демонстрирует способность работать с невиданными ранее объектами и частями, что подчеркивает её потенциал для использования в реальных условиях.
Data Engine: Автоматическая аннотация данных позволяет масштабировать обучение модели без необходимости ручной разметки.

Заключение

Исследование Ziqi Ma и его коллег представляет собой важный шаг в направлении создания универсальных моделей для 3D сегментации, способных работать в открытом мире. FIND 3D не только улучшает производительность и скорость сегментации, но и предлагает новый подход к сбору и аннотации данных, что открывает путь для дальнейших исследований и применений в области компьютерного зрения и робототехники.

Статья на arxiv Оригинал pdf benchmark zero-shot embedding

Ай Дайджест

Исследование открытого мира сегментации частей объектов в 3D

Основные понятия

Методология

Результаты и Вклады

Заключение