Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "rgb"

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.