Свежая выжимка ml и AI статей - каждый день
Современные достижения в области генеративных моделей, особенно диффузионных моделей, значительно изменили подходы к синтезу изображений и видео. Эти модели продемонстрировали впечатляющие результаты в генерации реалистичных изображений, однако они все еще сталкиваются с трудностями в создании контента, согласованного в трехмерном пространстве. В этой статье мы рассмотрим новую концепцию, предложенную в работе "World-consistent Video Diffusion" (WVD), которая объединяет генерацию видео и трехмерное моделирование для достижения более высокой согласованности и качества.
Несмотря на успехи диффузионных моделей в генерации изображений и видео, они имеют несколько ограничений:
World-consistent Video Diffusion (WVD) представляет собой новую архитектуру, которая использует явное 3D-направление в процессе диффузии, интегрируя RGB и XYZ кадры в единую модель. Основная идея заключается в том, чтобы использовать XYZ-изображения, которые представляют собой текстурные данные, содержащие глобальные 3D-координаты для каждого пикселя, что позволяет модели учиться генерировать как RGB, так и XYZ кадры одновременно.
WVD использует архитектуру, основанную на трансформерах (Diffusion Transformers), которые способны обрабатывать сложные зависимости между кадрами. Это позволяет модели эффективно захватывать 3D-структуры и генерировать согласованный контент. В процессе обучения модель учится совместному распределению RGB и XYZ кадров, что обеспечивает гибкость в выполнении различных задач, таких как оценка позы камеры и предсказание глубины.
XYZ-изображения имеют несколько ключевых преимуществ:
Модель WVD обучается на последовательностях 6D-видео, состоящих из RGB и XYZ кадров. В процессе обучения модель использует предобученные вариационные автоэнкодеры (VAE) для обработки данных в латентном пространстве. Это значительно увеличивает эффективность обучения и позволяет модели адаптироваться к различным задачам, включая генерацию новых RGB кадров и оценку глубины.
После генерации XYZ-изображений модель может легко выполнять алгоритм Perspective-n-Point (PnP) для восстановления соответствующих параметров камеры и карт глубины. Этот этап пост-оптимизации позволяет улучшить качество 3D-геометрии, что особенно полезно для последующих задач.
WVD может быть использована для различных задач, включая оценку глубины и синтез новых ракурсов из одного изображения. Вместо традиционных подходов, которые требуют явного контроля, WVD использует генеративный процесс для более естественного получения 3D-структуры.
Модель также может быть адаптирована для многовидовых задач, где она предсказывает только XYZ-кадры на основе набора RGB-изображений. Это достигается через процесс "инпейнтинга", где модель генерирует недостающие компоненты, сохраняя согласованность с предоставленными данными.
WVD поддерживает контролируемую генерацию видео, позволяя пользователю управлять движением камеры в сгенерированных видео. Это достигается путем проекции сгенерированных 3D-точек на целевые позы камеры, что обеспечивает четкое соответствие между сгенерированным и реальным видео.
В ходе экспериментов модель WVD была протестирована на различных наборах данных, включая RealEstate10K и ScanNet. Результаты показали, что WVD достигает конкурентоспособных результатов по сравнению с существующими методами, демонстрируя высокую степень согласованности между многими ракурсами и отличное качество генерируемого контента.
Качество сгенерированных изображений оценивалось с использованием таких метрик, как Frechet Inception Distance (FID) и Key Points Matching (KPM). Результаты показали, что WVD превосходит большинство существующих методов в отношении многовидовой согласованности и качества отображения.
Модель WVD представляет собой значительный шаг вперед в области генерации видео и трехмерного моделирования. Она объединяет RGB и XYZ данные в единый процесс, обеспечивая высокую степень согласованности и качество. В будущем, исследование может быть направлено на расширение возможностей модели для работы с динамическими наборами данных и внедрение других модальностей, таких как оптический поток и другие представления, что позволит еще больше улучшить результаты.
С учетом вышеизложенного, WVD имеет потенциал стать основой для дальнейших исследований в области 3D-моделирования и видео генерации, открывая новые горизонты для применения в различных областях, таких как виртуальная реальность, игра и киноиндустрия.