Свежая выжимка ml и AI статей - каждый день
Диффузионные модели (DM) изначально были разработаны для генерации изображений и видео, но их потенциал простирается далеко за пределы этих задач. В данной статье мы исследуем, как итеративные вычисления с использованием диффузионных моделей могут быть эффективно применены к задачам визуального восприятия, таким как оценка глубины, оптический поток и амодальная сегментация. Мы предлагаем унифицированный подход, который объединяет эти задачи под рамкой преобразования изображения в изображение, демонстрируя, как масштабирование вычислений во время обучения и тестирования может значительно улучшить производительность.
Визуальное восприятие включает в себя задачи, которые требуют понимания пространственных отношений и структуры сцены. Мы используем диффузионные модели, которые обучены на задаче генерации изображений, для решения таких задач, как:
Мы объединяем эти задачи в рамках единой архитектуры, используя предварительно обученные диффузионные модели, которые затем адаптируются для выполнения перцептивных задач. Наша модель принимает RGB изображение и условное изображение (например, следующий кадр видео или маску окклюзии) вместе с зашумленным изображением истинного предсказания, чтобы генерировать предсказания для различных визуальных задач.
Мы исследовали несколько подходов к масштабированию обучения диффузионных моделей:
Масштабирование вычислений на этапе тестирования также может значительно улучшить результаты:
Наши эксперименты показали, что:
Мы продемонстрировали, что диффузионные модели могут быть эффективно использованы не только для генерации, но и для задач визуального восприятия. Наши исследования показывают, что масштабирование вычислений как на этапе обучения, так и на этапе тестирования может привести к значительным улучшениям в производительности моделей, делая их конкурентоспособными с лучшими методами в области. Мы надеемся, что наши выводы вдохновят будущие исследования в области применения итеративных генеративных парадигм, таких как диффузионные модели, для задач восприятия.