MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (Referring Image Segmentation, RIS) представляет собой сложную задачу в области компьютерного зрения, которая требует точного выделения объектов на изображении, основываясь на текстовых описаниях. В отличие от традиционных задач семантической и инстанс-сегментации, которые ограничены заранее определенными классами, RIS предлагает уникальную гибкость, позволяя сегментировать объекты, указанные свободными текстовыми выражениями. Эта способность открывает широкие возможности для применения в таких областях, как взаимодействие человека и робота, а также в продвинутом редактировании изображений.

Одной из основных проблем, с которыми сталкивается RIS, является эффективное объединение визуальных и языковых признаков. Хотя предыдущие исследования сосредоточились на разработке сложных архитектур для кросс-модального выравнивания, эффективные методы обучения для RIS остаются недостаточно исследованными. В данной работе мы предлагаем новую структуру обучения, названную Masked Referring Image Segmentation (MaskRIS), которая использует дополнение данных как ключевой компонент.

Проблемы традиционного дополнения данных

Традиционные методы дополнения данных, используемые в семантической сегментации, часто оказываются несовместимыми с RIS. Например, случайные обрезки или горизонтальные перевороты могут изменить положение объекта, на который ссылается текст, что приводит к неправильному выделению. Кроме того, цветовые искажения могут сделать описываемый объект незаметным. Это объясняет, почему предыдущие методы RIS часто проявляли осторожность в использовании сложных техник дополнения, полагаясь в основном на простое изменение размера.

Наше исследование показывает, что традиционные подходы к дополнению данных действительно ухудшают производительность RIS. Мы обнаружили, что простые случайные маски значительно улучшают результаты, что подчеркивает необходимость разработки новых методов, способных учитывать специфику RIS.

MaskRIS: Новый подход

MaskRIS состоит из двух основных компонентов:

Маскирование входных данных как техника дополнения для RIS.
Обучение с учетом искажений (Distortion-aware Contextual Learning, DCL), разработанное для максимизации преимуществ маскирования.

Маскирование входных данных

Вместо того чтобы искажать важные пространственные и атрибутивные детали, маскирование входных данных минимизирует такие искажения, сохраняя критическую информацию и значительно увеличивая разнообразие данных. Мы применяем маскирование как к изображениям, так и к тексту, чтобы усилить способность модели справляться с визуальной и языковой сложностью.

Маскирование частей текста побуждает модель делать выводы о недостающих или неоднозначных деталях, улучшая ее понимание разнообразных ссылочных выражений и снижая зависимость от конкретных терминов.

Обучение с учетом искажений (DCL)

DCL обрабатывает входные данные через два взаимодополняющих пути: основной путь с оригинальными входами и вторичный путь с замаскированными входами. Основной путь обеспечивает стабильность обучения и поддерживает точность модели, в то время как вторичный путь увеличивает разнообразие данных и устойчивость.

Потеря дистилляции выравнивает предсказания из обоих путей, побуждая модель делать последовательные предсказания как для оригинальных, так и для замаскированных входов. Это не только улучшает устойчивость признаков к замаскированным входам, но и служит регуляризатором, добавляя полезные вызовы к задаче RIS.

Эксперименты и результаты

Мы провели эксперименты на трех популярных наборах данных: RefCOCO, RefCOCO+ и RefCOCOg. Результаты показывают, что MaskRIS значительно превосходит существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях, достигая новых рекордов по производительности.

Сравнение с современными методами

MaskRIS последовательно показывает лучшие результаты по сравнению с предыдущими методами. Например, при сравнении с методом CARIS, мы наблюдаем улучшение показателей oIoU на 1.82% на наборе данных RefCOCO. Эти результаты подтверждают эффективность нашей стратегии маскирования для обучения моделей RIS.

Оценка устойчивости

Одним из ключевых аспектов нашего подхода является его устойчивость к визуальным и языковым сложностям. Мы оценили устойчивость MaskRIS к различным искажениям изображений, используя набор данных ImageNet-C. Результаты показывают, что MaskRIS значительно превосходит предыдущие методы, демонстрируя улучшение oIoU на 1.34–5.07% в различных сценариях.

Заключение

В данной работе мы представили Masked Referring Image Segmentation (MaskRIS), эффективную структуру обучения для RIS, которая сочетает в себе маскирование изображений и текста с обучением, учитывающим искажения. MaskRIS решает проблемы традиционного дополнения данных в RIS, минимизируя семантические искажения и повышая разнообразие данных. Наш подход укрепляет устойчивость модели к окклюзиям и неполной информации, достигая новых рекордов по точности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Результаты демонстрируют эффективность и адаптивность MaskRIS как универсального и мощного базового решения для дальнейшего развития в области RIS.

Статья на arxiv Оригинал pdf performance learning segmentation

Ай Дайджест