Ай Дайджест - категория spatial

3DSRBench: Комплексный Бенчмарк Пространственного Рассуждения в 3D

3D пространственное мышление – это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в 3D-пространстве. Это позволяет моделям развивать всестороннее понимание 3D-сцены, что делает их применимыми для более широкого диапазона областей, таких как автономная навигация, робототехника и дополненная/виртуальная реальность. Несмотря на то, что крупные многомодальные модели (LMMs) добились значительного прогресса в широком диапазоне задач по пониманию изображений и видео, их способности выполнять 3D пространственное мышление на различных природных изображениях изучены меньше. В этой работе мы представляем первую всестороннюю оценку 3D пространственного мышления – 3DSRBench, с 2,772 вручную аннотированными парами визуальных вопросов-ответов по 12 типам вопросов. Мы проводим тщательную и надежную оценку возможностей 3D пространственного мышления, балансируя распределение данных и применяя новую стратегию FlipEval. Чтобы дополнительно изучить надежность 3D пространственного мышления относительно 3D-углов обзора камеры, наш 3DSRBench включает два поднабора с вопросами по 3D пространственному мышлению на парных изображениях с общими и необычными углами обзора. Мы исследуем широкий спектр открытых и собственных LMM, выявляя их ограничения в различных аспектах 3D осведомленности, таких как высота, ориентация, местоположение и многократное объектное мышление, а также их ухудшенные показатели на изображениях с необычными углами обзора камеры. Наш 3DSRBench предоставляет ценные данные и insights для будущего развития LMM с сильными возможностями 3D мышления. Наша проектная страница и набор данных доступны по адресу https://3dsrbench.github.io.

2024-12-12spatial 3d evaluation

Video-3D LLM: Понимание 3D-сцен с помощью видео-репрезентаций

Быстрое развитие многомодальных больших языковых моделей (MLLM) значительно повлияло на различные многомодальные задачи. Однако эти модели сталкиваются с трудностями в задачах, которые требуют пространственного понимания в 3D-средах. Были предприняты усилия по улучшению MLLM, такие как внедрение признаков облака точек, однако остается значительный разрыв между изученными моделями представлениями и врожденной сложностью 3D-сцен. Это несоответствие в значительной степени обусловлено обучением MLLM на преимущественно 2D-данных, что ограничивает их эффективность в понимании 3D-пространств. Чтобы решить эту проблему, в данной работе мы предлагаем новую универсальную модель, т.е. Video-3D LLM, для понимания 3D-сцен. Рассматривая 3D-сцены как динамические видео и внедряя 3D-кодирование позиций в эти представления, наша Video-3D LLM более точно согласовывает представления видео с реальными пространственными контекстами. Кроме того, мы реализовали технику максимального охвата выборки для оптимизации баланса между вычислительными затратами и эффективностью производительности. Обширные эксперименты показывают, что наша модель достигает передового уровня производительности на нескольких эталонах понимания 3D-сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.

2024-12-05representation training optimization

TAPTRv3: Улучшение отслеживания точек в длинных видео

В данной работе мы представляем TAPTRv3, который основан на TAPTRv2 и направлен на улучшение его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, которая может точно отслеживать любую точку в реальных видеоматериалах без необходимости использования объема затрат. TAPTRv3 улучшает TAPTRv2, устраняя его недостаток в запрашивании высококачественных признаков из длинных видео, где целевые точки отслеживания обычно подвергаются увеличивающимся изменениям со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запрашивания признаков по пространственным и временным измерениям для более надежного отслеживания в длинных видео. Для лучшего запрашивания пространственных признаков мы представляем Контекстно-осознающее Перекрестное Внимание (CCA), которое использует окружающий пространственный контекст для повышения качества значений внимания при запросе признаков изображения. Для лучшего запрашивания временных признаков мы вводим Внимание с учетом Видимости на Долгом Времени (VLTA), чтобы проводить временное внимание ко всем прошлым кадрам с учетом их соответствующих видимостей, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его RNN-подобным долгосрочным моделированием. TAPTRv3 значительно превосходит TAPTRv2 на большинстве сложных наборов данных и достигает передовой производительности. Даже по сравнению с методами, обученными на данных большого масштаба, TAPTRv3 по-прежнему остается конкурентоспособным.

2024-12-03context features robustness

LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей

Эта работа исследует расширение возможностей крупных языковых моделей (LLMs), предварительно обученных на текстах, для генерации 3D сеток в рамках единой модели. Это предлагает ключевые преимущества: (1) использование пространственных знаний, уже заложенных в LLM, полученных из текстовых источников, таких как 3D руководства, и (2) возможность диалоговой генерации 3D и понимания сеток. Основной вызов заключается в эффективной токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем LLaMA-Mesh, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса. Мы создаем набор данных для настроенного обучения с учителем (SFT), который позволяет предварительно обученным LLM (1) генерировать 3D сетки из текстовых запросов, (2) производить смешанные текстовые и 3D сеточные выходные данные по требованию и (3) понимать и интерпретировать 3D сетки. Наша работа впервые демонстрирует, что LLM могут быть настроены для приобретения сложных пространственных знаний для генерации 3D сеток в текстовом формате, эффективно объединяя 3D и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток, сравнимого с моделями, обученными с нуля, при этом сохраняя высокую производительность генерации текста.

2024-11-153d spatial mesh

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

2024-11-08learning diffusion video