Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "vision"

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

Разработка графических интерфейсов пользователя (GUI) для помощников обещает значительные перспективы для повышения продуктивности рабочих процессов человека. Хотя большинство агентов основаны на языковых технологиях и используют закрытые API с богатой текстовой мета-информацией (например, HTML или дерево доступности), они проявляют ограничения в восприятии визуалов интерфейса так, как это делают люди, что подчеркивает необходимость в агентах, способных визуально воспринимать GUI. В данной работе мы разрабатываем модель видео-языковых действий в цифровом мире, называемую ShowUI, которая включает следующие инновации: (i) Выбор визуальных токенов, руководимый UI, для снижения вычислительных затрат путем формулирования скриншотов в виде связанного графа UI, адаптивно выявляя их избыточные отношения и используя их в качестве критериев для выбора токенов в блоках само-внимания; (ii) Потоковое смешивание видео, языка и действий, которое гибко объединяет разнообразные потребности в задачах GUI, позволяя эффективно управлять историей визуальных действий при навигации или сопоставлении последовательностей запросов-действий на каждый скриншот для повышения эффективности обучения; (iii) Создание малых, но качественных наборов данных с инструкциями для GUI путем тщательного отбора данных и применения стратегии пересэмплирования для решения проблемы значительного дисбаланса типов данных. С помощью вышеперечисленных компонентов, ShowUI, легковесная модель на 2 миллиарда параметров, использующая 256K данных, достигает высокой точности в 75.1% при нулевом тестировании на привязке к скриншотам. Ее выбор токенов, руководимый UI, дополнительно сокращает на 33% избыточные визуальные токены во время обучения и ускоряет производительность в 1.4 раза. Эксперименты по навигации в средах web Mind2Web, мобильного AITW и онлайн MiniWob подчеркивают эффективность и потенциал нашей модели для развития визуальных агентов GUI. Модели доступны по адресу https://github.com/showlab/ShowUI.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."

BALROG: Оценка агентных возможностей LLM и VLM на играх

Крупные языковые модели (LLMs) и модели языка с визуальными элементами (VLMs) обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению; однако, они всё ещё испытывают трудности в эффективной работе в сложных, динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного рассуждения, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых у нас нет эффективных методик для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы представляем BALROG, новую эталонную платформу, разработанную для оценки агентских способностей LLMs и VLMs через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред для обучения с подкреплением с различным уровнем сложности, от задач, которые могут быть решены неспециалистами за секунды, до крайне сложных, которые могут потребовать лет для освоения (например, среда обучения NetHack). Мы разработали детальные метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLMs и VLMs. Наши выводы показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно отстают в решении более сложных задач. Особенно заметны серьезные недостатки в принятии решений на основе визуальной информации, поскольку модели показывают худшие результаты, когда предоставляются визуальные представления среды. Мы выпускаем BALROG как открытую и удобную для пользователя эталонную платформу, чтобы способствовать дальнейшим исследованиям и разработкам в сообществе агентских систем.

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность благодаря более глубокому рассуждению, эволюционируя от подсказок в цепочке мыслей к решениям уровня продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, данные высокого качества для долгосрочного рассуждения и оптимизированные обучающие конвейеры все еще недостаточно исследованы в задачах, связанных с обработкой изображений и языка. В этой статье мы представляем Insight-V, раннюю попытку 1) масштабно создавать длинные и надежные данные для рассуждения для сложных мультимодальных задач и 2) эффективный обучающий конвейер для улучшения способностей рассуждения многоязыковых больших языковых моделей (MLLM). В частности, для создания длинных и структурированных данных рассуждения без человеческого труда мы разработали двухэтапный конвейер с прогрессивной стратегией, чтобы генерировать достаточно длинные и разнообразные пути рассуждений, а также метод многоуровневой оценки для обеспечения качества данных. Мы заметили, что непосредственное обучение MLLM с такими длинными и сложными данными рассуждения не приводит к идеальным способностям рассуждения. Для решения этой проблемы мы разработали мультиагентную систему, состоящую из агента рассуждения, специализирующегося на выполнении долгосрочных рассуждений, и агента сводки, обученного оценивать и обобщать результаты рассуждений. Мы также внедрили итерационный алгоритм DPO для повышения стабильности и качества генерации рассуждений агентом. На основе популярной модели LLaVA-NeXT и нашего более мощного базового MLLM мы демонстрируем значительное улучшение производительности по сложным мультимодальным бенчмаркам, требующим визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также может легко поддерживать или улучшать производительность в задачах, ориентированных на восприятие мультимодальных данных.

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

BlueLM-V-3B: Алгоритм и системный дизайн для мультимодальных крупных языковых моделей на мобильных устройствах

Вот перевод текста на русский язык: --- Появление и растущая популярность мультимодальных крупных языковых моделей (MLLMs) обладают значительным потенциалом для улучшения различных аспектов повседневной жизни, от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые спутники повседневной жизни, представляют собой самую эффективную и доступную платформу для развертывания MLLMs, обеспечивая их бесшовную интеграцию в повседневные задачи. Однако развертывание MLLMs на мобильных телефонах представляет собой вызовы из-за ограничений в размере памяти и вычислительных возможностях, что затрудняет достижение плавной и реального времени обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, подход к совместному проектированию алгоритма и системы, специально адаптированный для эффективного развертывания MLLMs на мобильных платформах. В частности, мы перерабатываем схему динамического разрешения, принятую в основных MLLMs, и реализуем системную оптимизацию для развертывания с учетом аппаратных особенностей для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B выделяется следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиардами параметров и визуальный энкодер с 400 миллионами параметров. (2) Высокая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достигла наивысшего среднего балла 66,1 на бенчмарке OpenCompass среди моделей с параметрами ≤ 4B и превзошла серию моделей с гораздо большим размером параметров (например, MiniCPM-V-2.6, InternVL2-8B).

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Извлечение Последовательности Действий Пользователя из Записей Экрана с Помощью ВЛМ

Видеозаписи активности пользователей, особенно записи с рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в области моделей видео-языкового взаимодействия (VLMs) и их возрастающее использование в анализе видео, извлечение действий пользователя из записей с рабочего стола остается малоизученной областью. В данной статье мы устраняем этот пробел, предлагая два новых метода на основе VLMs для извлечения действий пользователя: прямой подход на основе кадров (DF), при котором образцы кадров напрямую вводятся в VLMs, и дифференциальный подход на основе кадров (DiffF), который включает в себя явные различия кадров, выявляемые с помощью методов компьютерного зрения. Мы оцениваем эти методы, используя базовый самосоставленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что подход DF достигает точности от 70% до 80% в определении действий пользователя, при этом извлеченные последовательности действий могут быть воспроизведены через автоматизацию роботизированных процессов. Мы обнаружили, что хотя VLMs показывают потенциал, включение явных изменений пользовательского интерфейса может ухудшить производительность, что делает подход DF более надежным. Эта работа представляет собой первое применение VLMs для извлечения последовательностей действий пользователя из записей рабочего стола, внося вклад в новые методы, бенчмарки и инсайты для будущих исследований.

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей в 3D является важной и сложной задачей в области 3D восприятия, играющей ключевую роль в приложениях, таких как робототехника, создание 3D и редактирование 3D. Современные методы используют мощные модели распознавания языка и зрения (VLMs) для дистилляции знаний из 2D в 3D, достигая нулевого этапа сегментации частей в 3D. Однако эти методы ограничены зависимостью от текстовых запросов, что ограничивает их масштабируемость для работы с большими неразмеченными наборами данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую рамку для нулевого этапа сегментации частей 3D объектов, которая сегментирует любой 3D объект на семантические части с различной детализацией, не требуя предопределенных наборов меток частей в виде текстовых запросов. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции 3D извлечения признаков, что позволяет масштабировать на большие неразмеченные 3D наборы данных для изучения богатых 3D приоритетов. Для гибкости мы дистиллируем 3D признаки, зависящие от масштаба, осведомленные о частях, для сегментации частей 3D с различной детализацией. Получив сегментированные части из этих признаков, мы используем VLMs для присвоения семантических меток каждой части на основе мультивью рендеринга. В сравнении с предыдущими методами, наш SAMPart3D может масштабироваться на недавние крупномасштабные наборы данных 3D объектов, такие как Objaverse, и обрабатывать сложные, необычные объекты. Кроме того, мы вносим вклад в создание нового эталона для сегментации частей 3D, чтобы решить проблему недостатка разнообразия и сложности объектов и частей в существующих эталонах. Эксперименты показывают, что наш SAMPart3D значительно превосходит существующие методы нулевого этапа сегментации частей 3D и может способствовать различным приложениям, таким как редактирование на уровне частей и интерактивная сегментация.

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

Авторегрессивные модели в компьютерном зрении: обзор

Авторегрессионное моделирование стало огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значимой областью внимания в компьютерном зрении, где они превосходно справляются с созданием высококачественного визуального контента. В NLP авторегрессионные модели обычно работают с субсловными токенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, например, уровень пикселей, уровень токенов или уровень масштаба, что отражает разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В этом обзоре мы всесторонне рассматриваем литературу по авторегрессионным моделям, применяемым в области зрения. Для улучшения читаемости для исследователей с разным научным багажом, мы начинаем с предварительного представления и моделирования последовательностей в зрении. Далее мы делим основные фреймворки визуальных авторегрессионных моделей на три общие подкатегории: модели на основе пикселей, токенов и масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, видео, 3D-объектов и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и 3D медицинский ИИ, с примерно 250 связанными ссылками. В заключение, мы подчеркиваем текущие вызовы для авторегрессионных моделей в зрении и предлагаем потенциальные направления для исследований. Мы также создали репозиторий на Github для организации бумаг, включенных в этот обзор, по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

DynaMem: Инновационный подход к динамической навигации и манипуляции роботов

Значительный прогресс достигнут в области мобильной манипуляции с открытым словарём, где цель заключается в том, чтобы робот выполнял задачи в любой среде, основываясь на описании на естественном языке. Однако большинство современных систем предполагают статическую среду, что ограничивает их применимость в реальных сценариях, где окружение часто меняется из-за вмешательства человека или действий самого робота. В данной работе мы представляем DynaMem, новый подход к мобильной манипуляции в открытом мире, который использует динамическую пространственно-семантическую память для представления окружения робота. DynaMem создает трехмерную структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы по локализации объектов с открытым словарём с помощью мультимодальных языковых моделей (LLMs) или открытых словарных признаков, генерируемых передовыми моделями видео-языкового взаимодействия. Благодаря DynaMem, наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере того, как объекты перемещаются, появляются или исчезают в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти оффлайн сценах и достигли среднего уровня успеха в подъеме и укладке объектов, не находящихся на месте, в 70%, что более чем в два раза превышает результаты лучших статических систем. Наш код, а также видео экспериментов и развертывания открыты для общественного доступа и могут быть найдены на сайте проекта: https://dynamem.github.io/

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

LLaMo: Large Language Model-based Molecular Graph Assistant

Большие языковые модели (LLMs) продемонстрировали выдающиеся способности к обобщению и выполнению инструкций благодаря настройке на инструкции. Прогресс в области LLM и настройки на инструкции привел к развитию Больших моделей языка и зрения (LVLMs). Однако возможности LLM и настройки на инструкции были менее изучены в молекулярной области. Поэтому мы предлагаем LLaMo: ассистент молекулярных графов на основе большой языковой модели, который представляет собой обученную от начала до конца большую молекулярную графо-языковую модель. Для сближения различий между языковыми и графовыми модальностями мы представляем многоуровневый графовый проектор, который преобразует представления графов в токены графов, абстрагируя выходные представления каждого слоя GNN и мотивные представления с помощью механизма перекрестного внимания. Мы также вводим данные инструкций для молекулярных графов, генерируемые машинами, для настройки большой молекулярной графо-языковой модели для общего понимания молекул и языка. Наши обширные эксперименты показывают, что LLaMo демонстрирует наилучшие результаты на разнообразных задачах, таких как генерация описания молекул, прогнозирование свойств и предсказание названий по ИЮПАК. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

moleculargnnllm

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

Оптимальные Визуальные Языковые Модели (VLM): Ключ к Эффективности

Модели языка и видения (VLMs) продемонстрировали высокую эффективность в различных задачах понимания и анализа визуальной информации. Однако их внедрение в реальном мире часто ограничено высокой задержкой при выводе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов (преимущественно из изображений) языковой моделью (LLM). Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, причем последнее стало фокусом многих недавних исследований по сжатию токенов. Однако неясно, каков оптимальный баланс, поскольку оба фактора напрямую влияют на производительность VLM. Мы впервые характеризуем этот оптимальный баланс между количеством визуальных токенов и параметрами LLM, устанавливая законы масштабирования, которые отражают изменения производительности с учетом этих двух факторов. Наши результаты выявляют неожиданную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLMs, то есть минимальная ошибка при любом фиксированном вычислительном бюджете, достигается при использовании самой большой LLM, которая вписывается в бюджет вывода, при этом минимизируя количество визуальных токенов, часто до одного токена. Хотя литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты указывают на то, что оптимальный режим вывода с точки зрения вычислительных ресурсов требует работы при еще более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы делаем первые шаги к разработке подходов, адаптированных для условий высокой компрессии токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.