Оценка качества изображения для областей интереса с использованием инструкционной настройки видео-языковых моделей

В последние годы оценка качества изображений (IQA) стала ключевой областью исследований в компьютерном зрении, особенно с развитием методов, не требующих эталонных изображений (No-Reference IQA или NR-IQA). Эти методы позволяют оценивать качество изображений без сравнения с эталонными версиями, что делает их особенно полезными в реальных приложениях, где эталонные изображения часто недоступны. Однако, большинство существующих методов NR-IQA фокусируются на оценке качества изображения в целом, игнорируя возможность детального анализа качества в конкретных областях интереса (ROIs).

Оценка качества изображений (IQA) является важным направлением в обработке изображений и компьютерном зрении. Существует три основных подхода к IQA: полно-референтный (FR-IQA), уменьшенный-референтный (RR-IQA) и безреферентный (NR-IQA). NR-IQA получает наибольшее внимание в реальных условиях, так как эталонные изображения часто недоступны.

Традиционно, методы IQA делятся на две категории по типу входных данных:

Vision-based IQA: Эти методы предсказывают качество изображения на основе визуальных характеристик, но часто страдают от недостатка интерпретируемости.
Vision-Language Model (VLM)-based IQA: Эти методы используют комбинацию изображений и текстовых инструкций для более детального анализа качества изображения, но также не учитывают качество в ROIs.

S,EAGULL: Новый подход к IQA для ROIs

В данной работе представлен новый метод, названный S,EAGULL, который позволяет оценивать качество изображения в ROIs с помощью видео-языковых моделей (VLM). S,EAGULL использует следующие ключевые компоненты:

Segment Anything Model (SAM): Для точного выделения ROIs с помощью масок.
Vision-Language Model (VLM): Для понимания и оценки качества ROIs.
Mask-based Feature Extractor (MFE): Для извлечения глобальных и локальных признаков из выделенных ROIs.

Конструкция датасетов

Для обучения и оценки S,EAGULL были созданы два новых датасета:

S,EAGULL-100w: Содержит около 100 тысяч синтетических изображений с искажениями и 33 миллиона ROIs для предварительного обучения модели. Этот датасет помогает модели лучше воспринимать качество изображения в различных областях.
S,EAGULL-3k: Содержит около 3 тысяч аутентичных ROIs с реальными искажениями, что позволяет модели адаптироваться к реальным условиям.

Методы оценки качества

S,EAGULL оценивает качество ROIs по трем основным параметрам:

ROI Quality Score: Оценка качества конкретной области.
ROI Importance Score: Оценка важности области для общего качества изображения.
ROI Distortion Analysis: Анализ типов искажений в области.

Архитектура S,EAGULL

Архитектура S,EAGULL включает в себя:

Image Encoder: Для извлечения многоуровневых признаков изображения.
Mask-based Feature Extractor (MFE): Для извлечения глобальных и локальных признаков ROIs.
LLM (Large Language Model): Для интеграции визуальных и текстовых данных и выполнения задач анализа качества.

Эксперименты и результаты

После предварительного обучения на S,EAGULL-100w и дообучения на S,EAGULL-3k, S,EAGULL показывает выдающиеся результаты в оценке качества ROIs. Эксперименты включали сравнение с ведущими моделями IQA и VLM, демонстрируя превосходство S,EAGULL в различных подзадачах:

Prediction of ROI Quality Scores: S,EAGULL показывает лучшие результаты по метрикам SROCC и PLCC.
Importance Scores: Также превосходит другие модели в предсказании важности ROIs.
Distortion Severity Degrees: Имеет высокую точность в определении степени искажений.
Distortion Types: Успешно идентифицирует различные типы искажений.

Заключение

S,EAGULL представляет собой значительный шаг вперед в области IQA, предоставляя инструменты для детального анализа качества изображений в конкретных областях. Использование масок для точного выделения ROIs, интеграция VLM для понимания и оценки качества, а также создание специализированных датасетов делают этот метод уникальным и эффективным для применения в различных областях, от оптимизации видео до медицинской визуализации.

Статья на arxiv Оригинал pdf vlm fine-tuning roi