3DSRBench: Комплексный Бенчмарк Пространственного Рассуждения в 3D

3D пространственное рассуждение — это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в трехмерном пространстве. Эта способность критически важна для таких областей, как автономная навигация, робототехника и дополненная/виртуальная реальность (AR/VR). Несмотря на значительные достижения больших мультимодальных моделей (LMM) в различных задачах понимания изображений и видео, их возможности в области 3D пространственного рассуждения остаются недостаточно изученными. В данной работе мы представляем первый комплексный бенчмарк для 3D пространственного рассуждения — 3DSRBench, который включает 2772 вручную аннотированных пар вопросов и ответов, охватывающих 12 типов вопросов.

Задачи 3D Пространственного Рассуждения

3D пространственное рассуждение требует от моделей понимания различных аспектов 3D-сцены. Это включает в себя:

Определение высоты объектов: Модели должны уметь определять, какой из двух объектов находится выше в 3D-пространстве.
Определение местоположения объектов: Это включает в себя определение расстояний между объектами, их близости к камере и их взаимного расположения.
Определение ориентации объектов: Модели должны уметь определять, какая сторона объекта обращена к камере и как объекты расположены относительно друг друга.
Многообъектное рассуждение: Здесь рассматриваются отношения между несколькими объектами, например, какая сторона одного объекта обращена к другому.

Каждый из этих типов вопросов требует от модели глубокого понимания 3D-структуры сцены, включая положение объектов и ориентацию камеры.

3DSRBench: Структура и Дизайн

Дизайн Бенчмарка

При разработке 3DSRBench мы учли несколько ключевых аспектов:

Открытая вокабулярная аннотация: В отличие от предыдущих бенчмарков, которые ограничивались узким набором объектов, мы использовали широкий диапазон открытых сущностей для аннотирования вопросов.
Избежание тривиальных вопросов: Мы исключили вопросы с очевидными ответами, сосредоточившись на тех, где правильный ответ требует более глубокого анализа.
Сбалансированное распределение данных: Мы добились равного количества вопросов с ответами «да/нет» и пар изображений, которые приводят к противоположным ответам на один и тот же вопрос.
Оценочные стратегии: Мы разработали новые стратегии оценки, такие как FlipEval, чтобы устранить предвзятости в пространственных отношениях.

Типы Вопросов

3DSRBench включает в себя четыре основных типа вопросов, каждый из которых требует различных уровней 3D-осознания:

Высота: Модели должны определить, какой объект выше, что требует калибровки экструзии камеры и определения 3D-координат объектов.
Местоположение: Вопросы могут включать определение расстояний между объектами и их взаимного расположения.
Ориентация: Модели должны уметь определять, какая сторона объекта обращена к камере и как объекты расположены относительно друг друга.
Многообъектное рассуждение: Вопросы, касающиеся пространственных отношений между несколькими объектами.

Разделы Бенчмарка

3DSRBench состоит из трех разделов: реального раздела с 2100 вопросами на изображениях MS-COCO и двух синтетических разделов с 672 вопросами, созданными на основе 3D-сцен из HSSD. Эти разделы позволяют оценить стандартные способности LMM в 3D пространственном рассуждении и их устойчивость к различным углам обзора камеры.

Экспериментальные Результаты

Устойчивость к Различным Углам Обзора

Мы оценили устойчивость LMM к различным углам обзора, сравнивая производительность моделей на общих и необычных углах. Результаты показали значительное снижение точности при переходе от общих к необычным углам, что указывает на недостаточную обобщающую способность моделей.

Сравнение Моделей

Мы провели сравнение различных открытых и проприетарных LMM, таких как LLaVA, Cambrian и GPT-4o. Результаты показали, что все модели демонстрируют ограниченные способности к 3D пространственному рассуждению, значительно уступая человеческому уровню производительности.

Проблемы и Неудачи

Несмотря на достижения, в некоторых случаях модели не смогли выполнить сложные задачи 3D пространственного рассуждения, полагаясь на визуальные подсказки вместо глубокого анализа. Например, GPT-4o не смог правильно оценить расстояние между объектами, что указывает на необходимость дальнейших улучшений в области 3D-осознания.

Заключение

3DSRBench представляет собой важный шаг вперед в оценке 3D пространственного рассуждения LMM. Он обеспечивает обширный набор вопросов, который можно использовать для диагностики и улучшения 3D-осознания моделей. Результаты нашего исследования подчеркивают необходимость дальнейших разработок в области архитектур и методов обучения, которые могут улучшить способности LMM к пространственному рассуждению.

Статья на arxiv Оригинал pdf 3d spatial navigation

Ай Дайджест