Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

AlphaTablets: Новая генерация представления 3D-плоскостей для реконструкции из монокулярных видео

Реконструкция 3D-плоскостей из монокулярных видео является важной задачей в области компьютерного зрения, направленной на точное обнаружение и восстановление 3D-плоскостей из последовательных 2D-изображений. Восстановленные 3D-плоскости служат гибким представлением поверхностей, что позволяет применять их в различных областях, таких как моделирование сцен, дополненная реальность и робототехника. Традиционные методы реконструкции 3D-плоскостей сильно зависят от явных геометрических входных данных и ручных признаков, что накладывает ограничения на их масштабируемость и надежность.

В последние годы методы, основанные на обучении, начали использовать мощь данных для прямой сегментации плоскостей и регрессии параметров плоскостей из одиночных или разреженных изображений. Однако, несмотря на достижения, существующие подходы часто не могут обеспечить полное восстановление плоскостей и испытывают трудности с обобщением на разнообразные сцены.

В данной статье мы представляем AlphaTablets — новое и универсальное представление 3D-плоскостей, которое сочетает в себе преимущества существующих 2D и 3D представлений плоскостей. AlphaTablets позволяют точно и последовательно моделировать 3D-плоскости, обеспечивая гибкость и эффективность в реконструкции.

AlphaTablets: Общее описание

AlphaTablets представляют собой 3D-плоскости, описываемые в виде прямоугольников с альфа-каналами. Это позволяет достичь естественного деления нерегулярных границ плоскостей и обеспечивает непрерывное представление 3D-сурфейсов. Используя AlphaTablets, мы можем эффективно моделировать как геометрию, так и текстуру плоскостей, что позволяет обрабатывать сложные и нерегулярные границы.

Основные компоненты AlphaTablets включают:

  1. 3D-геометрические свойства: Каждая таблетка имеет центральную точку, нормальный вектор, вектор "вверх" и вектор "вправо".
  2. 2D-свойства: Включает текстурную карту, альфа-канал и диапазон пикселей, что позволяет точно моделировать текстуры и прозрачность.
  3. Альфа-канал: Обеспечивает возможность моделирования произвольных форм.

Эта структура позволяет AlphaTablets успешно комбинировать преимущества 2D и 3D представлений, включая эффективную оптимизацию плоскостей в 3D-пространстве и консистентность между различными видами.

Дифференцируемая растеризация

Для эффективного проецирования 3D-плоскостей в 2D-изображения мы вводим дифференцируемую растеризацию AlphaTablets. Это позволяет адаптировать существующие фреймворки для дифференцируемой рендеринга, такие как NVDiffrast, для компоновки и рендеринга произвольного количества таблеток.

Процесс включает преобразование таблеток в псевдомеши перед каждым этапом рендеринга. Это позволяет нам использовать стандартные методы растеризации для работы с прозрачными примитивами, что является критически важным для AlphaTablets.

Многоуровневая растеризация

В процессе растеризации необходимо учитывать несколько слоев, чтобы извлечь ближайшие поверхности для каждого пикселя. Это достигается с помощью глубинного пилинга, который позволяет эффективно обрабатывать прозрачность и цвета на пересекающихся границах.

Антиалиасинг для AlphaTablets

Традиционные методы антиалиасинга не учитывают альфа-значения, что может привести к неправильным результатам. Мы предлагаем метод, который учитывает как текстурные, так и альфа-значения при растеризации, что обеспечивает более качественные результаты.

Пайплайн для реконструкции 3D-плоскостей

На основе AlphaTablets мы предлагаем новый подход к реконструкции 3D-плоскостей из монокулярных видео. Пайплайн включает несколько ключевых этапов:

  1. Инициализация: Используя предварительно обученные модели для оценки глубины и нормалей, мы инициализируем AlphaTablets из 2D-суперпикселей.
  2. Оптимизация: Параметры AlphaTablets оптимизируются с использованием дифференцируемой рендеринга, что позволяет корректировать геометрию, текстуру и альфа-каналы.
  3. Слияние: Вводится схема слияния, которая способствует объединению соседних таблеток для создания более крупных и согласованных плоскостей.

Этот итеративный процесс оптимизации и слияния позволяет достигать точных и полных 3D-плоскостей с четкими границами и интерполируемыми текстурными картами.

Эксперименты и результаты

Мы провели обширные эксперименты на наборе данных ScanNet, чтобы продемонстрировать эффективность AlphaTablets в задаче 3D-реконструкции. Результаты показывают, что наш метод превосходит существующие подходы по различным метрикам, включая точность и полноту.

Сравнение с существующими методами

В ходе экспериментов мы сравнили AlphaTablets с рядом современных методов, таких как PlanarRecon и NeuralRecon. Результаты показывают, что AlphaTablets обеспечивают более высокую точность в восстановлении 3D-плоскостей, особенно в сложных сценах с множеством мелких плоскостей.

Применение в редактировании сцен

Одним из значительных преимуществ AlphaTablets является возможность гибкого редактирования сцен на основе 3D-плоскостей. Мы можем легко изменять текстуры и цвета, что открывает новые возможности для креативной манипуляции сценами.

Заключение

В данной работе мы представили AlphaTablets — новое и универсальное представление 3D-плоскостей, которое демонстрирует значительные улучшения в задаче реконструкции из монокулярных видео. AlphaTablets позволяют эффективно моделировать сложные геометрии и текстуры, обеспечивая гибкость и точность. Наши эксперименты показывают, что данный подход имеет большой потенциал для применения в различных областях, связанных с 3D-реконструкцией и редактированием сцен.

В будущем мы планируем расширить возможности AlphaTablets, внедряя методы, учитывающие зависимость от вида, и исследуя гибридные представления сцен.