Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей 3D объектов является ключевой задачей в области 3D восприятия, имеющей широкое применение в робототехнике, 3D генерации и редактировании. Несмотря на значительный прогресс в этой области, многие методы до сих пор сталкиваются с трудностями при работе с необычными объектами или при масштабировании на большие наборы данных без разметки. В этой статье мы рассмотрим инновационный подход, представленный в работе Yunhan Yang и его коллег из Гонконгского университета и проекта VAST, который позволяет сегментировать любые 3D объекты на семантические части с различной степенью детализации без необходимости в предварительно определённых наборов меток частей или текстовых подсказок.

Обзор SAMPart3D

SAMPart3D — это фреймворк для сегментации частей 3D объектов, который решает проблемы масштабируемости и гибкости, присущие предыдущим методам. Вот основные аспекты, которые делают его уникальным:

Масштабируемость без текстовых подсказок: В отличие от многих современных методов, которые зависят от текстовых подсказок для сегментации, SAMPart3D использует текст-независимые модели видения для дистилляции знаний из 2D в 3D, что позволяет масштабироваться на большие наборы данных без разметки.
Гибкость в определении гранулярности: Фреймворк позволяет сегментировать объекты на различных уровнях детализации, что особенно полезно при работе с объектами, имеющими сложную структуру или необычные формы.
Применение к сложным объектам: SAMPart3D эффективно работает с объектами из недавно выпущенного набора данных Objaverse, который включает более 800 тысяч 3D активов, охватывающих разнообразные категории объектов.
Новый бенчмарк для оценки: Авторы ввели новый бенчмарк, PartObjaverse-Tiny, который предоставляет детальную семантическую и инстанционную разметку для 200 сложных 3D объектов, что позволяет более точно оценивать методы сегментации частей.

Технологический подход

Пре-тренировка на большом масштабе

Первый этап SAMPart3D включает в себя пре-тренировку на большом масштабе с использованием набора данных Objaverse. Здесь используется модель DINOv2 для дистилляции визуальных признаков в 3D пространство. Этот процесс включает:

Семплирование точечных облаков из поверхностей мешей 3D объектов.
Рендеринг мультивью изображений и извлечение признаков с помощью DINOv2.
Дистилляция признаков из 2D в 3D, используя среднеквадратичную ошибку (MSE) как целевую функцию.

Специфическая настройка для образцов

После пре-тренировки, фреймворк переходит к настройке для конкретных образцов, где используются легковесные MLP (многослойные перцептроны) для дистилляции масок сегментации от SAM (Segment Anything Model) в масштабно-условные признаки для 3D сегментации. Этот этап включает:

Длинное пропускание соединений для сохранения низкоуровневых признаков точечных облаков.
Масштабно-условное группирование для контроля уровня детализации сегментации.

Запрос семантики с помощью MLLM

На финальном этапе, после получения сегментированных частей, SAMPart3D использует мультимодальные языковые модели (MLLM) для присвоения семантических меток каждой части, основываясь на мультивью рендерингах:

Выделение частей в 2D рендерингах для последующего запроса семантики.
Использование MLLM для интерпретации и присвоения меток.

Результаты и применения

Эксперименты показывают, что SAMPart3D значительно превосходит существующие методы нулевого шота по сегментации частей 3D объектов. Фреймворк демонстрирует высокую точность на сложных и разнообразных объектах, что подтверждается на новом бенчмарке PartObjaverse-Tiny. Кроме того, SAMPart3D открывает двери для различных приложений:

Интерактивная сегментация: Пользователи могут контролировать сегментацию с помощью 2D масок или кликов.
Редактирование на уровне частей: Возможность изменять материалы и формы частей объектов.
Генерация и редактирование 3D контента: Создание и модификация 3D активов с высокой детализацией.

Заключение

SAMPart3D представляет собой значительный шаг вперёд в области 3D сегментации частей, предлагая гибкость и масштабируемость, которые были недоступны ранее. Его способность работать с большими наборами данных без разметки и сегментировать объекты на различных уровнях детализации делает его мощным инструментом для 3D восприятия и генерации. Этот подход не только улучшает текущие методы, но и открывает новые возможности для исследований и применений в области 3D компьютерного зрения.

Статья на arxiv Оригинал pdf features scalability distillation

Ай Дайджест