Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "depth"

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

Marigold-DC: Нулевое завершение глубины с помощью направленной диффузии

Завершение глубины улучшает разреженные измерения глубины в плотные карты глубины, используя обычное изображение в качестве руководства. Существующие методы для этой сильно неправильно поставленной задачи работают в жестко ограниченных условиях и, как правило, с трудом применяются к изображениям вне области обучения или когда доступные измерения глубины разреженные, неравномерно распределенные или с переменной плотностью. Вдохновленные недавними достижениями в оценке глубины по одному изображению, мы переосмысливаем завершение глубины как создание карты глубины, обусловленной изображением, основанной на разреженных измерениях. Наш метод, Marigold-DC, основывается на заранее обученной модели латентной диффузии для оценки глубины по одному изображению и вставляет наблюдения глубины в качестве руководства во время тестирования через схему оптимизации, которая работает параллельно с итеративным выводом диффузии денойзинга. Метод демонстрирует отличную обобщающую способность без обучения на разнообразном диапазоне сред и эффективно обрабатывает даже крайне разреженное руководство. Наши результаты предполагают, что современные приоритеты глубины по единому изображению значительно усиливают завершение глубины: возможно, лучше рассматривать задачу как восстановление плотной глубины из (плотных) пикселей изображения, с использованием разреженной глубины в качестве руководства; вместо того, чтобы рассматривать это как инпейтинг (разреженной) глубины, с использованием изображения в качестве руководства. Веб-сайт проекта: https://MarigoldDepthCompletion.github.io/

Дисентанглинг позы: управление анимацией человеческих изображений

Контролируемая анимация человеческого изображения направлена на генерацию видео из эталонных изображений с использованием управляющих видеозаписей. Из-за ограниченных контрольных сигналов, предоставляемых разреженным управлением (например, поза скелета), в недавних работах были предприняты попытки ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить согласование движений. Однако такое строгое плотное управление ухудшает качество сгенерированного видео, когда форма тела эталонного персонажа значительно отличается от формы тела в управляющем видео. В этой статье мы представляем DisPose, чтобы извлечь более универсальные и эффективные контрольные сигналы без дополнительного плотного ввода, который разделяет разреженную позу скелета в анимации человеческого изображения на руководство полем движений и соответствие ключевым точкам. В частности, мы генерируем плотное поле движений из разреженного поля движений и эталонного изображения, что обеспечивает плотное руководство на уровне регионов, сохраняя возможность обобщения разреженного контроля позы. Мы также извлекаем диффузионные признаки, соответствующие ключевым точкам позы из эталонного изображения, и затем эти точечные признаки передаются на целевую позу для предоставления четкой идентификационной информации. Чтобы бесшовно интегрироваться в существующие модели, мы предлагаем гибридный ControlNet, который улучшает качество и согласованность сгенерированных видео, замораживая параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

2DGS-Room: Реконструкция Интерьеров с Помощью 2D Гауссового Сплошения

Реконструкция внутренних сцен остается сложной из-за присущей сложности пространственных структур и распространенности областей без текстур. Недавние достижения в 3D-гауссовском сплаттинге улучшили синтез новых видов с ускоренной обработкой, но еще не обеспечили сопоставимую производительность в реконструкции поверхности. В этой статье мы представляем 2DGS-Room, новый метод, использующий 2D-гауссовский сплаттинг для высококачественной реконструкции внутренних сцен. В частности, мы используем механизм, управляемый семенами, чтобы контролировать распределение 2D-гауссианов, при этом плотность семенных точек динамически оптимизируется с помощью адаптивных механизмов роста и обрезки. Чтобы дополнительно улучшить геометрическую точность, мы включаем монокулярные глубины и нормалей как приори для обеспечения ограничений по деталям и бесструктурным регионам соответственно. Кроме того, используются ограничения многовидовой согласованности для уменьшения артефактов и дополнительного улучшения качества реконструкции. Обширные эксперименты на датасетах ScanNet и ScanNet++ демонстрируют, что наш метод достигает наилучшей производительности в реконструкции внутренних сцен.

PanoDreamer: Синтез 3D панорам из одного изображения

В данной работе мы представляем PanoDreamer, новый метод создания согласованной 360° 3D-сцены из одного входного изображения. В отличие от существующих методов, которые генерируют сцену последовательно, мы формулируем задачу как создание панорамы и оценку глубины из одного изображения. Как только согласованное панорамное изображение и соответствующая ему глубина получены, сцену можно восстановить, заполнив небольшие закрытые области и проецируя их в 3D-пространство. Наше ключевое достижение заключается в формулировке задачи создания панорамы и оценки глубины из одного изображения как двух задач оптимизации и внедрении чередующихся стратегий минимизации для эффективного решения их целей. Мы демонстрируем, что наш подход превосходит существующие методы в реконструкции сцены 360° из одного изображения по критериям согласованности и общего качества.

RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока

Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.

Связь между точностью обнаружения объектов, визуальной салиентностью и оценкой глубины

По мере развития методов обнаружения объектов, понимание их взаимосвязей с комплементарными визуальными задачами становится критически важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя основными визуальными задачами: предсказанием глубины и предсказанием визуальной значимости. Через обширные эксперименты с использованием моделей последнего поколения (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC, мы обнаружили, что визуальная значимость демонстрирует более сильные корреляции с точностью обнаружения объектов (mArho до 0.459 на Pascal VOC), по сравнению с предсказанием глубины (mArho до 0.283). Наш анализ выявил значительные вариации этих корреляций между категориями объектов, где большие объекты показывают значения корреляции в три раза выше, чем маленькие объекты. Эти результаты предполагают, что включение признаков визуальной значимости в архитектуры обнаружения объектов может быть более выгодным, чем информация о глубине, особенно для определённых категорий объектов. Обнаруженные вариации, специфичные для категорий, также предоставляют понимание для целенаправленной инженерии признаков и улучшений в дизайне наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.