Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Изучение 3D-представлений с помощью процедурных 3D-программ

Самообучение (SSL) стало мощным инструментом для получения переносимых 3D-представлений из неразмеченных облаков точек. В отличие от 2D-изображений, доступ к которым довольно широк, создание 3D-активов требует специализированных знаний или профессионального оборудования для 3D-сканирования, что затрудняет масштабирование и вызывает проблемы с авторскими правами. Чтобы решить эти проблемы, мы предлагаем изучать 3D-представления с использованием процедурных 3D-программ, которые автоматически генерируют 3D-формы с помощью простых примитивов и аугментаций. Удивительно, но несмотря на отсутствие семантического содержания, 3D-представления, обученные на этом синтезированном наборе данных, показывают результаты, сопоставимые с передовыми представлениями, обученными на семантически узнаваемых 3D-моделях (например, самолеты), по различным задачам 3D, включая классификацию форм, сегментацию частей и завершение маскированного облака точек.

Основные идеи и ключевые результаты

Мы изучаем 3D-представления с использованием Point-MAE на двух различных наборах данных:

  • ShapeNet: Предоставляет семантически значимые 3D-модели.
  • Процедурно сгенерированные 3D-формы: Не имеют семантической структуры.

Модели, обученные на ShapeNet, обозначены как Point-MAE-SN, а те, что обучены на процедурно сгенерированных формах, — как Point-MAE-Zero.

На рисунке 1 представлены ключевые результаты:

  • (a) Примеры 3D-моделей из ShapeNet.
  • (b) Примеры процедурно сгенерированных 3D-форм.
  • (c) Сравнение производительности на различных задачах и бенчмарках: ModelNet40 для классификации форм и три варианта ScanObjectNN для классификации и сегментации частей.
  • (d) Демонстрация возможности Point-MAE-Zero выполнять восстановление маскированного облака точек без дополнительной настройки.

Абстракт

Самообучение (SSL) выделяется как перспективный подход для получения переносимых 3D-представлений из неразмеченных облаков точек. В отличие от 2D-изображений, доступ к которым достаточно широк, создание 3D-активов требует специализированных знаний или профессионального оборудования для 3D-сканирования, что затрудняет масштабирование и вызывает проблемы с авторскими правами. Чтобы решить эти проблемы, мы предлагаем изучать 3D-представления с использованием процедурных 3D-программ, которые автоматически генерируют 3D-формы с помощью простых примитивов и аугментаций. Удивительно, но несмотря на отсутствие семантического содержания, 3D-представления, обученные на этом синтезированном наборе данных, показывают результаты, сопоставимые с передовыми представлениями, обученными на семантически узнаваемых 3D-моделях (например, самолеты), по различным задачам 3D, включая классификацию форм, сегментацию частей и завершение маскированного облака точек. Наш анализ также указывает на то, что текущие методы самообучения в основном захватывают геометрические структуры, а не высокие семантические уровни.

Самообучение (SSL) направлено на изучение представлений из неразмеченных данных, которые могут эффективно переноситься на различные задачи. Вдохновленные успехами SSL в языковом и изображенческом представлении, методы SSL для понимания облаков точек 3D недавно привлекли значительный интерес. Например, Point-MAE вводит схему маскированного автоэнкодирования в обучение представлений облаков точек, показывая значительные улучшения в различных задачах понимания форм 3D (например, классификация и сегментация форм). Однако, в отличие от языковых и изображенческих данных, которые широко доступны, 3D-активы менее доступны из-за необходимости специализированных знаний для создания 3D-форм с помощью специализированного программного обеспечения (например, Blender) или профессионального оборудования для 3D-сканирования. Эта нехватка 3D-форм ограничивает масштабируемость существующих методов обучения представлений.

Несмотря на усилия по расширению наборов данных 3D-объектов, уникальные проблемы сбора 3D-данных, такие как вопросы авторских прав и разнообразие форматов, остаются нерешенными. Чтобы решить эти проблемы, мы исследуем обучение представлений облаков точек исключительно на синтетических данных, сгенерированных через процедурные 3D-программы, примеры которых показаны на рисунке 1b. Наша конвейерная линия генерации данных начинается с выборки форм из набора простых 3D-примитивов (например, кубы, цилиндры, сферы). Эти примитивы подвергаются аффинным преобразованиям (например, масштабирование, трансляция, поворот) и комбинируются для создания разнообразных геометрий. Затем мы аугментируем составные формы с помощью предопределенных операций (например, булевых операций), чтобы еще больше повысить топологическую разнообразность и равномерно отбираем 3D-точки поверхности этих форм для обучения представлений облаков точек.