RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока
Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.