Свежая выжимка ml и AI статей - каждый день
Сегментация частей 3D объектов является ключевой задачей в области 3D восприятия, имеющей широкое применение в робототехнике, 3D генерации и редактировании. Несмотря на значительный прогресс в этой области, многие методы до сих пор сталкиваются с трудностями при работе с необычными объектами или при масштабировании на большие наборы данных без разметки. В этой статье мы рассмотрим инновационный подход, представленный в работе Yunhan Yang и его коллег из Гонконгского университета и проекта VAST, который позволяет сегментировать любые 3D объекты на семантические части с различной степенью детализации без необходимости в предварительно определённых наборов меток частей или текстовых подсказок.
SAMPart3D — это фреймворк для сегментации частей 3D объектов, который решает проблемы масштабируемости и гибкости, присущие предыдущим методам. Вот основные аспекты, которые делают его уникальным:
Масштабируемость без текстовых подсказок: В отличие от многих современных методов, которые зависят от текстовых подсказок для сегментации, SAMPart3D использует текст-независимые модели видения для дистилляции знаний из 2D в 3D, что позволяет масштабироваться на большие наборы данных без разметки.
Гибкость в определении гранулярности: Фреймворк позволяет сегментировать объекты на различных уровнях детализации, что особенно полезно при работе с объектами, имеющими сложную структуру или необычные формы.
Применение к сложным объектам: SAMPart3D эффективно работает с объектами из недавно выпущенного набора данных Objaverse, который включает более 800 тысяч 3D активов, охватывающих разнообразные категории объектов.
Новый бенчмарк для оценки: Авторы ввели новый бенчмарк, PartObjaverse-Tiny, который предоставляет детальную семантическую и инстанционную разметку для 200 сложных 3D объектов, что позволяет более точно оценивать методы сегментации частей.
Первый этап SAMPart3D включает в себя пре-тренировку на большом масштабе с использованием набора данных Objaverse. Здесь используется модель DINOv2 для дистилляции визуальных признаков в 3D пространство. Этот процесс включает:
После пре-тренировки, фреймворк переходит к настройке для конкретных образцов, где используются легковесные MLP (многослойные перцептроны) для дистилляции масок сегментации от SAM (Segment Anything Model) в масштабно-условные признаки для 3D сегментации. Этот этап включает:
На финальном этапе, после получения сегментированных частей, SAMPart3D использует мультимодальные языковые модели (MLLM) для присвоения семантических меток каждой части, основываясь на мультивью рендерингах:
Эксперименты показывают, что SAMPart3D значительно превосходит существующие методы нулевого шота по сегментации частей 3D объектов. Фреймворк демонстрирует высокую точность на сложных и разнообразных объектах, что подтверждается на новом бенчмарке PartObjaverse-Tiny. Кроме того, SAMPart3D открывает двери для различных приложений:
SAMPart3D представляет собой значительный шаг вперёд в области 3D сегментации частей, предлагая гибкость и масштабируемость, которые были недоступны ранее. Его способность работать с большими наборами данных без разметки и сегментировать объекты на различных уровнях детализации делает его мощным инструментом для 3D восприятия и генерации. Этот подход не только улучшает текущие методы, но и открывает новые возможности для исследований и применений в области 3D компьютерного зрения.