Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "segmentation"

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

Эффективное отслеживание объектов в видео с помощью EfficientTrackAnything

Модель Segment Anything Model 2 (SAM 2) зарекомендовала себя как мощный инструмент для сегментации объектов в видео и отслеживания всего. Ключевыми компонентами SAM 2, которые обеспечивают впечатляющие результаты сегментации видеообъектов, являются большой многоступенчатый энкодер изображений для извлечения характеристик кадров и механизм памяти, который хранит контексты памяти из прошлых кадров, чтобы помочь сегментации текущего кадра. Высокая вычислительная сложность многоступенчатого энкодера изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации видеообъектов на мобильных устройствах. Для решения этой проблемы мы предлагаем EfficientTAMs, легковесные модели отслеживания всего, которые обеспечивают высококачественные результаты с низкой задержкой и небольшим размером модели. Наша идея основана на пересмотре простого, неиерархического Vision Transformer (ViT) в качестве энкодера изображений для сегментации объектов в видео, а также на введении эффективного модуля памяти, который уменьшает сложность как для извлечения характеристик кадров, так и для вычисления памяти для сегментации текущего кадра. Мы берем ванильные легковесные ViTs и эффективный модуль памяти для построения EfficientTAMs и тренируем модели на наборах данных SA-1B и SA-V для задач сегментации объектов в видео и отслеживания всего. Мы оцениваем несколько бенчмарков сегментации видео, включая полусупервизированную VOS и запрашиваемую сегментацию видео, и находим, что наша предложенная EfficientTAM с ванильным ViT демонстрирует сопоставимые результаты с моделью SAM 2 (HieraB+SAM 2) с ускорением примерно в 2 раза на A100 и сокращением параметров примерно на 2,4 раза. В задачах сегментации изображений с учетом всего, наши EfficientTAM также показывают лучшие результаты по сравнению с оригинальной SAM с ускорением примерно в 20 раз на A100 и сокращением параметров примерно на 20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAM могут работать со скоростью около 10 FPS для выполнения сегментации объектов в видео с разумным качеством, подчеркивая возможности маленьких моделей для приложений сегментации объектов в видео на устройстве.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Изучение 3D-представлений с помощью процедурных 3D-программ

Самонадзорное обучение (self-supervised learning) выделяется как перспективный метод для получения переносимых 3D представлений из неразмеченных облаков 3D точек. В отличие от 2D изображений, которые широко доступны, получение 3D активов требует специализированных знаний или профессионального оборудования для 3D сканирования, что затрудняет масштабирование и вызывает вопросы авторского права. Чтобы решить эти проблемы, мы предлагаем обучение 3D представлений на основе процедурных 3D программ, которые автоматически генерируют 3D формы с использованием простых примитивов и аугментаций. Замечательно, что несмотря на отсутствие семантического содержания, 3D представления, обученные на этом синтезированном наборе данных, показывают результаты, сравнимые с передовыми представлениями, обученными на семантически узнаваемых 3D моделях (например, самолетах), в различных задачах 3D, включая классификацию форм, сегментацию частей и заполнение маскированных облаков точек. Наш анализ также указывает, что текущие методы самонадзорного обучения в основном захватывают геометрические структуры, а не высокие семантические уровни.

SegBook: A Comprehensive Guide to Volumetric Medical Image Segmentation

Компьютерная томография (КТ) является одной из самых популярных модальностей для медицинской визуализации. КТ-изображения внесли наибольший вклад в создание общедоступных наборов данных для задач сегментации объемных медицинских изображений, охватывающих анатомические структуры всего тела. Большое количество изображений КТ всего тела предоставляет возможность предварительно обучать мощные модели, например, STU-Net, обученную в контролируемом режиме, для сегментации множества анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные задачи медицинской сегментации, особенно при сегментации других модальностей и разнообразных целей. Для решения этой проблемы важно создать крупномасштабный эталон для всеобъемлющей оценки условий переноса. Таким образом, мы собрали 87 публичных наборов данных, различающихся по модальности, цели и размеру выборки, для оценки способности к переносу моделей, предварительно обученных на КТ всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения с переносом через модальности и цели. Наши экспериментальные результаты показывают, что (1) может существовать эффект узкого места, связанный с размером набора данных при тонкой настройке, с большим улучшением как на малых, так и на больших наборах данных, чем на средних. (2) Модели, предварительно обученные на КТ всего тела, демонстрируют эффективный перенос модальностей, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на КТ всего тела не только поддерживает высокую производительность в обнаружении структур, но и показывает эффективность в обнаружении поражений, демонстрируя адаптивность по отношению к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения с переносом сможет направить будущие исследования в области сегментации объемных медицинских изображений.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео, которые не соответствуют текстовым запросам, особенно когда запросы описывают сложные сцены с множеством объектов и атрибутов. Чтобы решить эту проблему, мы представляем VideoRepair — новую модельно-независимую, не требующую обучения систему уточнения видео, которая автоматически выявляет тонкие несоответствия между текстом и видео и генерирует явную пространственную и текстовую обратную связь, позволяя модели T2V проводить целенаправленные, локализованные уточнения. VideoRepair состоит из четырех этапов: На (1) этапе оценки видео мы обнаруживаем несоответствия, генерируя детализированные оценочные вопросы и отвечая на них с помощью MLLM. На (2) этапе планирования уточнений мы идентифицируем правильно сгенерированные объекты и затем создаем локализованные запросы для уточнения других областей видео. Затем на (3) этапе разложения регионов мы сегментируем правильно сгенерированную область с помощью комбинированного модуля привязки. Мы регенерируем видео, корректируя несоответствующие регионы и сохраняя правильные области на (4) этапе локализованного уточнения. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench), VideoRepair значительно превосходит недавние базовые модели по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) показала высокие результаты в задачах сегментации объектов, но сталкивается с трудностями в визуальном отслеживании объектов, особенно при управлении сценам, где много быстро движущихся или самозатмевающих объектов. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для настройки характеристик изображения на следующий кадр, что приводит к распространению ошибок в видео. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Включая временные движения с предложенным механизмом выбора памяти, чувствительным к движению, SAMURAI эффективно предсказывает движение объектов и уточняет выбор масок, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность без обучения на различных тестовых наборах данных, демонстрируя свою способность к обобщению без настройки. В оценках SAMURAI показывает значительные улучшения в показателях успеха и точности по сравнению с существующими трекерами, с увеличением AUC на 7,1% на LaSOT_{ext} и на 3,5% AO на GOT-10k. Кроме того, он показывает конкурентоспособные результаты по сравнению с полностью контролируемыми методами на LaSOT, подчеркивая его надежность в сложных сценариях отслеживания и потенциал для реальных приложений в динамических средах. Код и результаты доступны по адресу https://github.com/yangchris11/samurai.

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей в 3D является важной и сложной задачей в области 3D восприятия, играющей ключевую роль в приложениях, таких как робототехника, создание 3D и редактирование 3D. Современные методы используют мощные модели распознавания языка и зрения (VLMs) для дистилляции знаний из 2D в 3D, достигая нулевого этапа сегментации частей в 3D. Однако эти методы ограничены зависимостью от текстовых запросов, что ограничивает их масштабируемость для работы с большими неразмеченными наборами данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую рамку для нулевого этапа сегментации частей 3D объектов, которая сегментирует любой 3D объект на семантические части с различной детализацией, не требуя предопределенных наборов меток частей в виде текстовых запросов. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции 3D извлечения признаков, что позволяет масштабировать на большие неразмеченные 3D наборы данных для изучения богатых 3D приоритетов. Для гибкости мы дистиллируем 3D признаки, зависящие от масштаба, осведомленные о частях, для сегментации частей 3D с различной детализацией. Получив сегментированные части из этих признаков, мы используем VLMs для присвоения семантических меток каждой части на основе мультивью рендеринга. В сравнении с предыдущими методами, наш SAMPart3D может масштабироваться на недавние крупномасштабные наборы данных 3D объектов, такие как Objaverse, и обрабатывать сложные, необычные объекты. Кроме того, мы вносим вклад в создание нового эталона для сегментации частей 3D, чтобы решить проблему недостатка разнообразия и сложности объектов и частей в существующих эталонах. Эксперименты показывают, что наш SAMPart3D значительно превосходит существующие методы нулевого этапа сегментации частей 3D и может способствовать различным приложениям, таким как редактирование на уровне частей и интерактивная сегментация.

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

Водяные знаки в локализованных сообщениях: Обзор модели WAM

Методы наложения водяных знаков на изображения не адаптированы для обработки малых водяных знаковых областей. Это ограничивает применение в реальных сценариях, где части изображения могут поступать из разных источников или были отредактированы. Мы представляем модель глубокого обучения для локализованного наложения водяных знаков, названную Моделью Наложения Водяных Знаков (WAM). Встраиватель WAM неуловимо изменяет входное изображение, в то время как экстрактор разделяет полученное изображение на водяные знаковые и неводяные зоны и извлекает одно или несколько скрытых сообщений из областей, где были обнаружены водяные знаки. Модели обучаются совместно на низком разрешении и без перцептивных ограничений, затем дополнительно обучаются на незаметность и на возможность наложения множественных водяных знаков. Эксперименты показывают, что WAM конкурентоспособен с лучшими методами по незаметности и устойчивости, особенно против восстановления и монтажа, даже на изображениях высокого разрешения. Более того, он предлагает новые возможности: WAM может локализовать водяные знаковые области на монтированных изображениях и извлекать различные 32-битные сообщения с ошибкой менее 1 бита из нескольких малых областей - не более 10% поверхности изображения - даже для маленьких изображений 256x256.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.