Свежая выжимка ml и AI статей - каждый день
В последние годы оценка качества изображений (IQA) стала ключевой областью исследований в компьютерном зрении, особенно с развитием методов, не требующих эталонных изображений (No-Reference IQA или NR-IQA). Эти методы позволяют оценивать качество изображений без сравнения с эталонными версиями, что делает их особенно полезными в реальных приложениях, где эталонные изображения часто недоступны. Однако, большинство существующих методов NR-IQA фокусируются на оценке качества изображения в целом, игнорируя возможность детального анализа качества в конкретных областях интереса (ROIs).
Оценка качества изображений (IQA) является важным направлением в обработке изображений и компьютерном зрении. Существует три основных подхода к IQA: полно-референтный (FR-IQA), уменьшенный-референтный (RR-IQA) и безреферентный (NR-IQA). NR-IQA получает наибольшее внимание в реальных условиях, так как эталонные изображения часто недоступны.
Традиционно, методы IQA делятся на две категории по типу входных данных:
В данной работе представлен новый метод, названный S,EAGULL, который позволяет оценивать качество изображения в ROIs с помощью видео-языковых моделей (VLM). S,EAGULL использует следующие ключевые компоненты:
Для обучения и оценки S,EAGULL были созданы два новых датасета:
S,EAGULL оценивает качество ROIs по трем основным параметрам:
Архитектура S,EAGULL включает в себя:
После предварительного обучения на S,EAGULL-100w и дообучения на S,EAGULL-3k, S,EAGULL показывает выдающиеся результаты в оценке качества ROIs. Эксперименты включали сравнение с ведущими моделями IQA и VLM, демонстрируя превосходство S,EAGULL в различных подзадачах:
S,EAGULL представляет собой значительный шаг вперед в области IQA, предоставляя инструменты для детального анализа качества изображений в конкретных областях. Использование масок для точного выделения ROIs, интеграция VLM для понимания и оценки качества, а также создание специализированных датасетов делают этот метод уникальным и эффективным для применения в различных областях, от оптимизации видео до медицинской визуализации.