Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "estimation"

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Мы рассматриваем проблему оценки целевого взгляда, которая направлена на предсказание того, куда смотрит человек в сцене. Для предсказания целевого взгляда человека требуется рассуждение как о внешнем виде человека, так и о содержании сцены. Ранее разработанные работы создали все более сложные ручные схемы для оценки целевого взгляда, которые тщательно объединяют признаки из различных кодировщиков сцен, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и положение. Побуждаемые успехом универсальных экстракторов признаков в различных визуальных задачах, мы предлагаем Gaze-LLE — новую трансформерную структуру, которая упрощает оценку целевого взгляда, используя признаки из замороженного DINOv2 кодировщика. Мы извлекаем одно представление признака для сцены и применяем специфичный для человека позиционный запрос для декодирования взгляда с помощью легковесного модуля. Мы демонстрируем передовые достижения в нескольких бенчмарках по оценке взгляда и предоставляем обширный анализ для проверки наших проектных решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

Neural Light Rig: Точное восстановление нормалей объектов и материалов с помощью многосветового диффузионного моделирования

Восстановление геометрии и материалов объектов из одного изображения представляет собой сложную задачу из-за его недоопределенного характера. В этой статье мы представляем Neural LightRig, новую структуру, которая усиливает внутреннюю оценку, используя вспомогательные условия многосветовой подсветки из 2D-диффузионных приоритетов. В частности, 1) сначала мы используем приоритеты освещения из моделей диффузии большого масштаба, чтобы построить нашу многосветовую модель диффузии на синтетическом наборе данных перераспределения с выделенными дизайнами. Эта модель диффузии генерирует множество согласованных изображений, каждое из которых освещено точечными источниками света в разных направлениях. 2) Используя эти разнообразные освещенные изображения для снижения неопределенности оценки, мы обучаем большую модель G-буфера с архитектурой U-Net для точного предсказания нормалей поверхности и материалов. Обширные эксперименты подтверждают, что наш подход значительно превосходит современные методы, что позволяет точно оценивать нормали поверхности и материалы PBR с яркими эффектами перераспределения освещения. Код и набор данных доступны на нашей странице проекта по адресу https://projects.zxhezexin.com/neural-lightrig.

PanoDreamer: Синтез 3D панорам из одного изображения

В данной работе мы представляем PanoDreamer, новый метод создания согласованной 360° 3D-сцены из одного входного изображения. В отличие от существующих методов, которые генерируют сцену последовательно, мы формулируем задачу как создание панорамы и оценку глубины из одного изображения. Как только согласованное панорамное изображение и соответствующая ему глубина получены, сцену можно восстановить, заполнив небольшие закрытые области и проецируя их в 3D-пространство. Наше ключевое достижение заключается в формулировке задачи создания панорамы и оценки глубины из одного изображения как двух задач оптимизации и внедрении чередующихся стратегий минимизации для эффективного решения их целей. Мы демонстрируем, что наш подход превосходит существующие методы в реконструкции сцены 360° из одного изображения по критериям согласованности и общего качества.

Важность Критических Токенов: Как Контрастная Оценка на Уровне Токенов Улучшает Способности Рассуждения LLM

Большие языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах логического вывода. Они используют автогенерацию токенов для построения логических траекторий, что позволяет развивать связную цепь мысли. В данной работе мы исследуем влияние отдельных токенов на конечные результаты логических задач. Мы выявляем существование "критических токенов", которые приводят к неправильным логическим траекториям в LLM. В частности, мы обнаруживаем, что LLM склонны давать положительные результаты, когда их заставляют декодировать другие токены вместо критических токенов. Вдохновленные этим наблюдением, мы предлагаем новый подход - cDPO, предназначенный для автоматического распознавания и проведения вознаграждений на уровне токенов для критических токенов во время процесса согласования. В частности, мы разрабатываем подход к контрастивной оценке для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для достижения этой цели мы отдельно дообучаем положительные и отрицательные модели на различных логических траекториях, в результате чего они способны выявлять критические токены внутри неправильных траекторий, которые способствуют ошибочным результатам. Более того, чтобы дополнительно согласовать модель с информацией о критических токенах во время процесса согласования, мы расширяем обычные алгоритмы DPO до DPO на уровне токенов и используем дифференциальную вероятность от вышеупомянутых положительных и отрицательных моделей в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на базах данных GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.

RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока

Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

Акустический объемный рендеринг для нейронных полей импульсных откликов

Реалистичный синтез звука, который точно отображает акустические явления, необходим для создания погружающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (IR), которая описывает, как звук распространяется в данной сцене по различным путям перед достижением позиции слушателя. В данной статье мы представляем Acoustic Volume Rendering (AVR), новый подход, который адаптирует методы объемного рендеринга для моделирования акустических импульсных характеристик. Хотя объемный рендеринг успешно использовался для моделирования полей излучения для изображений и нейронных представлений сцен, IR представляют уникальные вызовы как временные ряды сигналов. Чтобы справиться с этими вызовами, мы вводим рендеринг в частотной области и используем сферическую интеграцию для подгонки измерений IR. Наш метод создает поле импульсной характеристики, которое по своей природе кодирует принципы распространения волн и достигает передовых результатов в синтезе импульсных характеристик для новых положений. Эксперименты показывают, что AVR значительно превосходит текущие ведущие методы. Кроме того, мы разработали платформу акустического моделирования AcoustiX, которая обеспечивает более точные и реалистичные симуляции IR, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.