Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей 3D объектов является ключевой задачей в области 3D восприятия, имеющей широкое применение в робототехнике, 3D генерации и редактировании. Несмотря на значительный прогресс в этой области, многие методы до сих пор сталкиваются с трудностями при работе с необычными объектами или при масштабировании на большие наборы данных без разметки. В этой статье мы рассмотрим инновационный подход, представленный в работе Yunhan Yang и его коллег из Гонконгского университета и проекта VAST, который позволяет сегментировать любые 3D объекты на семантические части с различной степенью детализации без необходимости в предварительно определённых наборов меток частей или текстовых подсказок.

Обзор SAMPart3D

SAMPart3D — это фреймворк для сегментации частей 3D объектов, который решает проблемы масштабируемости и гибкости, присущие предыдущим методам. Вот основные аспекты, которые делают его уникальным:

  • Масштабируемость без текстовых подсказок: В отличие от многих современных методов, которые зависят от текстовых подсказок для сегментации, SAMPart3D использует текст-независимые модели видения для дистилляции знаний из 2D в 3D, что позволяет масштабироваться на большие наборы данных без разметки.

  • Гибкость в определении гранулярности: Фреймворк позволяет сегментировать объекты на различных уровнях детализации, что особенно полезно при работе с объектами, имеющими сложную структуру или необычные формы.

  • Применение к сложным объектам: SAMPart3D эффективно работает с объектами из недавно выпущенного набора данных Objaverse, который включает более 800 тысяч 3D активов, охватывающих разнообразные категории объектов.

  • Новый бенчмарк для оценки: Авторы ввели новый бенчмарк, PartObjaverse-Tiny, который предоставляет детальную семантическую и инстанционную разметку для 200 сложных 3D объектов, что позволяет более точно оценивать методы сегментации частей.

Технологический подход

Пре-тренировка на большом масштабе

Первый этап SAMPart3D включает в себя пре-тренировку на большом масштабе с использованием набора данных Objaverse. Здесь используется модель DINOv2 для дистилляции визуальных признаков в 3D пространство. Этот процесс включает:

  • Семплирование точечных облаков из поверхностей мешей 3D объектов.
  • Рендеринг мультивью изображений и извлечение признаков с помощью DINOv2.
  • Дистилляция признаков из 2D в 3D, используя среднеквадратичную ошибку (MSE) как целевую функцию.

Специфическая настройка для образцов

После пре-тренировки, фреймворк переходит к настройке для конкретных образцов, где используются легковесные MLP (многослойные перцептроны) для дистилляции масок сегментации от SAM (Segment Anything Model) в масштабно-условные признаки для 3D сегментации. Этот этап включает:

  • Длинное пропускание соединений для сохранения низкоуровневых признаков точечных облаков.
  • Масштабно-условное группирование для контроля уровня детализации сегментации.

Запрос семантики с помощью MLLM

На финальном этапе, после получения сегментированных частей, SAMPart3D использует мультимодальные языковые модели (MLLM) для присвоения семантических меток каждой части, основываясь на мультивью рендерингах:

  • Выделение частей в 2D рендерингах для последующего запроса семантики.
  • Использование MLLM для интерпретации и присвоения меток.

Результаты и применения

Эксперименты показывают, что SAMPart3D значительно превосходит существующие методы нулевого шота по сегментации частей 3D объектов. Фреймворк демонстрирует высокую точность на сложных и разнообразных объектах, что подтверждается на новом бенчмарке PartObjaverse-Tiny. Кроме того, SAMPart3D открывает двери для различных приложений:

  • Интерактивная сегментация: Пользователи могут контролировать сегментацию с помощью 2D масок или кликов.
  • Редактирование на уровне частей: Возможность изменять материалы и формы частей объектов.
  • Генерация и редактирование 3D контента: Создание и модификация 3D активов с высокой детализацией.

Заключение

SAMPart3D представляет собой значительный шаг вперёд в области 3D сегментации частей, предлагая гибкость и масштабируемость, которые были недоступны ранее. Его способность работать с большими наборами данных без разметки и сегментировать объекты на различных уровнях детализации делает его мощным инструментом для 3D восприятия и генерации. Этот подход не только улучшает текущие методы, но и открывает новые возможности для исследований и применений в области 3D компьютерного зрения.