Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "geometric"

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.