Погружение в 3D: Открытие новых горизонтов с DiffusionGS
Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.