Свежая выжимка ml и AI статей - каждый день
3D пространственное рассуждение — это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в трехмерном пространстве. Эта способность критически важна для таких областей, как автономная навигация, робототехника и дополненная/виртуальная реальность (AR/VR). Несмотря на значительные достижения больших мультимодальных моделей (LMM) в различных задачах понимания изображений и видео, их возможности в области 3D пространственного рассуждения остаются недостаточно изученными. В данной работе мы представляем первый комплексный бенчмарк для 3D пространственного рассуждения — 3DSRBench, который включает 2772 вручную аннотированных пар вопросов и ответов, охватывающих 12 типов вопросов.
3D пространственное рассуждение требует от моделей понимания различных аспектов 3D-сцены. Это включает в себя:
Каждый из этих типов вопросов требует от модели глубокого понимания 3D-структуры сцены, включая положение объектов и ориентацию камеры.
При разработке 3DSRBench мы учли несколько ключевых аспектов:
3DSRBench включает в себя четыре основных типа вопросов, каждый из которых требует различных уровней 3D-осознания:
3DSRBench состоит из трех разделов: реального раздела с 2100 вопросами на изображениях MS-COCO и двух синтетических разделов с 672 вопросами, созданными на основе 3D-сцен из HSSD. Эти разделы позволяют оценить стандартные способности LMM в 3D пространственном рассуждении и их устойчивость к различным углам обзора камеры.
Мы оценили устойчивость LMM к различным углам обзора, сравнивая производительность моделей на общих и необычных углах. Результаты показали значительное снижение точности при переходе от общих к необычным углам, что указывает на недостаточную обобщающую способность моделей.
Мы провели сравнение различных открытых и проприетарных LMM, таких как LLaVA, Cambrian и GPT-4o. Результаты показали, что все модели демонстрируют ограниченные способности к 3D пространственному рассуждению, значительно уступая человеческому уровню производительности.
Несмотря на достижения, в некоторых случаях модели не смогли выполнить сложные задачи 3D пространственного рассуждения, полагаясь на визуальные подсказки вместо глубокого анализа. Например, GPT-4o не смог правильно оценить расстояние между объектами, что указывает на необходимость дальнейших улучшений в области 3D-осознания.
3DSRBench представляет собой важный шаг вперед в оценке 3D пространственного рассуждения LMM. Он обеспечивает обширный набор вопросов, который можно использовать для диагностики и улучшения 3D-осознания моделей. Результаты нашего исследования подчеркивают необходимость дальнейших разработок в области архитектур и методов обучения, которые могут улучшить способности LMM к пространственному рассуждению.