Ай Дайджест - категория roi

ROICtrl: Усовершенствование управления экземплярами в визуальной генерации

Естественный язык часто сталкивается с трудностями в точной ассоциации позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями с участием только нескольких доминирующих экземпляров. Для решения этой проблемы в данной работе улучшены диффузионные модели за счет введения контроля региональных экземпляров, где каждый экземпляр управляется ограничивающей рамкой, сопоставленной со свободной формой подписи. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения регионов интересов (ROI), что приводит либо к неточной инъекции координат, либо к большим вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное манипулирование ROI на картах признаков высокого разрешения для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных диффузионных моделей, который позволяет точно контролировать региональные экземпляры. ROICtrl совместим с дообученными диффузионными моделями сообщества, а также с существующими пространственными дополнениями (например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в контроле региональных экземпляров, одновременно значительно уменьшая вычислительные затраты.

2024-11-27roi models instances

Оценка качества изображения для областей интереса с использованием инструкционной настройки видео-языковых моделей

Существующие методы оценки качества изображения (IQA) достигли значительных успехов в анализе качества целого изображения, однако немногие работы исследуют анализ качества для областей интереса (ROIs). Анализ качества ROIs может предоставить детальные рекомендации для улучшения качества изображения и является ключевым для сценариев, ориентированных на качество на уровне регионов. В данной статье предлагается новая сеть, SEAGULL, которая может видеть и оценивать качество ROIs с использованием руководства от большой модели "видение-язык". SEAGULL включает модель "видение-язык" (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для указания ROIs, и тщательно разработанный экстрактор признаков на основе масок (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, что позволяет выполнять точную оценку качества на уровне ROIs. Более того, в статье созданы два набора данных IQA на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки IQA на основе ROIs. SEAGULL-100w содержит около 100 тысяч синтетических искаженных изображений с 33 миллионами ROIs для предобучения, чтобы улучшить способность модели воспринимать качество регионов, а SEAGULL-3k включает около 3 тысяч реальных искаженных ROIs для повышения способности модели воспринимать реальные искажения. После предобучения на SEAGULL-100w и дообучения на SEAGULL-3k, SEAGULL демонстрирует выдающиеся результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны по адресу https://github.com/chencn2020/Seagull.

2024-11-20vlm pre-training roi