Масштабирование свойств диффузионных моделей для перцептивных задач

Диффузионные модели (DM) изначально были разработаны для генерации изображений и видео, но их потенциал простирается далеко за пределы этих задач. В данной статье мы исследуем, как итеративные вычисления с использованием диффузионных моделей могут быть эффективно применены к задачам визуального восприятия, таким как оценка глубины, оптический поток и амодальная сегментация. Мы предлагаем унифицированный подход, который объединяет эти задачи под рамкой преобразования изображения в изображение, демонстрируя, как масштабирование вычислений во время обучения и тестирования может значительно улучшить производительность.

Единый подход к визуальным задачам

Визуальное восприятие включает в себя задачи, которые требуют понимания пространственных отношений и структуры сцены. Мы используем диффузионные модели, которые обучены на задаче генерации изображений, для решения таких задач, как:

Оценка глубины: Предсказание расстояния от камеры до каждой точки в сцене.
Оптический поток: Определение движения объектов между последовательными кадрами видео.
Амодальная сегментация: Предсказание полной формы и объема объектов, включая их скрытые части.

Мы объединяем эти задачи в рамках единой архитектуры, используя предварительно обученные диффузионные модели, которые затем адаптируются для выполнения перцептивных задач. Наша модель принимает RGB изображение и условное изображение (например, следующий кадр видео или маску окклюзии) вместе с зашумленным изображением истинного предсказания, чтобы генерировать предсказания для различных визуальных задач.

Масштабирование вычислений

Масштабирование во время обучения

Мы исследовали несколько подходов к масштабированию обучения диффузионных моделей:

Размер модели: Увеличение количества слоев и размеров скрытых измерений в модели Diffusion Transformer (DiT) показывает улучшение производительности согласно закону степенной зависимости (power law).
Модели с смесью экспертов (MoE): Использование разреженных моделей с смесью экспертов позволяет увеличить емкость модели без значительного увеличения вычислительных затрат.
Разрешение изображения: Увеличение разрешения изображения во время обучения позволяет модели учиться на более детализированных данных, что улучшает производительность на задачах восприятия.
Upcycling: Преобразование плотных моделей в разреженные модели с смесью экспертов без необходимости обучения с нуля.

Масштабирование во время тестирования

Масштабирование вычислений на этапе тестирования также может значительно улучшить результаты:

Увеличение числа шагов денойзинга: Более длинные цепочки денойзинга позволяют модели постепенно уточнять предсказания.
Тестовое ансамблирование: Генерация нескольких предсказаний и их объединение может снизить ошибку.
Расписание шума: Оптимизация расписания шума для денойзинга может улучшить качество восстановления изображения.

Экспериментальные результаты

Наши эксперименты показали, что:

Увеличение размера модели и использование MoE приводят к значительным улучшениям в производительности на задачах восприятия.
Увеличение разрешения изображения во время обучения и тестирования улучшает точность предсказаний.
Техники upcycling и ансамблирования на этапе тестирования могут дать существенные преимущества без необходимости дополнительного обучения.

Заключение

Мы продемонстрировали, что диффузионные модели могут быть эффективно использованы не только для генерации, но и для задач визуального восприятия. Наши исследования показывают, что масштабирование вычислений как на этапе обучения, так и на этапе тестирования может привести к значительным улучшениям в производительности моделей, делая их конкурентоспособными с лучшими методами в области. Мы надеемся, что наши выводы вдохновят будущие исследования в области применения итеративных генеративных парадигм, таких как диффузионные модели, для задач восприятия.

Статья на arxiv Оригинал pdf segmentation training generation