Свежая выжимка ml и AI статей - каждый день
Современные достижения в области 3D-генерации играют важную роль в таких областях, как виртуальная реальность, развлечения и симуляция. Эти технологии открывают новые горизонты для воссоздания сложных структур реального мира и расширения человеческого воображения. Тем не менее, разработка моделей 3D-генерации ограничена нехваткой доступных 3D-датасетов и высокими затратами на их создание. В этой статье мы рассмотрим новую модель под названием See3D, которая использует масштабируемые видеоданные из Интернета для создания 3D-контента без необходимости в аннотациях позы.
Текущие модели генерации 3D-контента часто зависят от ограниченных 3D-датасетов с высококачественными аннотациями. Эти аннотации, как правило, требуют значительных временных и финансовых затрат, что делает их труднодоступными для исследовательских групп. В то же время, видео, доступные в Интернете, представляют собой богатый источник многовидовых изображений, которые могут быть использованы для обучения моделей 3D-генерации. Однако, чтобы эффективно использовать эти данные, необходимо решить две ключевые проблемы:
See3D представляет собой визуально-условную многовидовую диффузионную модель, которая обучается на масштабируемых видеоданных без аннотаций позы. Основная идея заключается в том, что модель может извлекать 3D-знания, просто анализируя визуальный контент из огромного количества видео. Для достижения этой цели была разработана новая стратегия фильтрации данных, которая автоматически отбирает видео с динамическим содержанием и ограниченными ракурсами.
Курация данных для создания датасета WebVi3D включает несколько этапов:
В результате этих этапов был создан датасет WebVi3D, содержащий 320 миллионов кадров из 15.99 миллионов видеоклипов. Этот датасет значительно превосходит по размеру предыдущие 3D-датасеты, что открывает новые возможности для обучения моделей.
See3D использует визуально-условные сигналы, которые формируются путем добавления временно-зависимого шума к маскированным данным видео. Это позволяет модели обучаться, не полагаясь на аннотации позы. Визуально-условные сигналы являются 2D-индуктивными визуальными сигналами, которые обеспечивают достаточно информации для генерации 3D-контента. Модель обучается на основе диффузионного процесса, который включает в себя обучение обратному процессу генерации, что позволяет создавать новые виды на основе заданных ракурсов.
See3D демонстрирует свою эффективность в различных задачах 3D-креации, включая:
Эксперименты показывают, что See3D превосходит существующие модели по всем метрикам, включая PSNR, SSIM и LPIPS. Это подтверждает, что модель способна генерировать высококачественные и реалистичные 3D-сцены, сохраняя при этом пространственную согласованность.
See3D представляет собой значительный шаг вперед в области 3D-генерации, предлагая доступный и масштабируемый подход к созданию 3D-контента из видео без необходимости в аннотациях позы. Это открывает новые возможности для исследовательских групп и индустрии, позволяя создавать 3D-контент быстрее и с меньшими затратами. Мы надеемся, что этот подход вдохновит дальнейшие исследования в области 3D-генерации и поможет преодолеть текущие ограничения, связанные с доступностью 3D-данных.