Свежая выжимка ml и AI статей - каждый день
Сегментация изображений по ссылкам (Referring Image Segmentation, RIS) представляет собой сложную задачу в области компьютерного зрения, которая требует точного выделения объектов на изображении, основываясь на текстовых описаниях. В отличие от традиционных задач семантической и инстанс-сегментации, которые ограничены заранее определенными классами, RIS предлагает уникальную гибкость, позволяя сегментировать объекты, указанные свободными текстовыми выражениями. Эта способность открывает широкие возможности для применения в таких областях, как взаимодействие человека и робота, а также в продвинутом редактировании изображений.
Одной из основных проблем, с которыми сталкивается RIS, является эффективное объединение визуальных и языковых признаков. Хотя предыдущие исследования сосредоточились на разработке сложных архитектур для кросс-модального выравнивания, эффективные методы обучения для RIS остаются недостаточно исследованными. В данной работе мы предлагаем новую структуру обучения, названную Masked Referring Image Segmentation (MaskRIS), которая использует дополнение данных как ключевой компонент.
Традиционные методы дополнения данных, используемые в семантической сегментации, часто оказываются несовместимыми с RIS. Например, случайные обрезки или горизонтальные перевороты могут изменить положение объекта, на который ссылается текст, что приводит к неправильному выделению. Кроме того, цветовые искажения могут сделать описываемый объект незаметным. Это объясняет, почему предыдущие методы RIS часто проявляли осторожность в использовании сложных техник дополнения, полагаясь в основном на простое изменение размера.
Наше исследование показывает, что традиционные подходы к дополнению данных действительно ухудшают производительность RIS. Мы обнаружили, что простые случайные маски значительно улучшают результаты, что подчеркивает необходимость разработки новых методов, способных учитывать специфику RIS.
MaskRIS состоит из двух основных компонентов:
Вместо того чтобы искажать важные пространственные и атрибутивные детали, маскирование входных данных минимизирует такие искажения, сохраняя критическую информацию и значительно увеличивая разнообразие данных. Мы применяем маскирование как к изображениям, так и к тексту, чтобы усилить способность модели справляться с визуальной и языковой сложностью.
Маскирование частей текста побуждает модель делать выводы о недостающих или неоднозначных деталях, улучшая ее понимание разнообразных ссылочных выражений и снижая зависимость от конкретных терминов.
DCL обрабатывает входные данные через два взаимодополняющих пути: основной путь с оригинальными входами и вторичный путь с замаскированными входами. Основной путь обеспечивает стабильность обучения и поддерживает точность модели, в то время как вторичный путь увеличивает разнообразие данных и устойчивость.
Потеря дистилляции выравнивает предсказания из обоих путей, побуждая модель делать последовательные предсказания как для оригинальных, так и для замаскированных входов. Это не только улучшает устойчивость признаков к замаскированным входам, но и служит регуляризатором, добавляя полезные вызовы к задаче RIS.
Мы провели эксперименты на трех популярных наборах данных: RefCOCO, RefCOCO+ и RefCOCOg. Результаты показывают, что MaskRIS значительно превосходит существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях, достигая новых рекордов по производительности.
MaskRIS последовательно показывает лучшие результаты по сравнению с предыдущими методами. Например, при сравнении с методом CARIS, мы наблюдаем улучшение показателей oIoU на 1.82% на наборе данных RefCOCO. Эти результаты подтверждают эффективность нашей стратегии маскирования для обучения моделей RIS.
Одним из ключевых аспектов нашего подхода является его устойчивость к визуальным и языковым сложностям. Мы оценили устойчивость MaskRIS к различным искажениям изображений, используя набор данных ImageNet-C. Результаты показывают, что MaskRIS значительно превосходит предыдущие методы, демонстрируя улучшение oIoU на 1.34–5.07% в различных сценариях.
В данной работе мы представили Masked Referring Image Segmentation (MaskRIS), эффективную структуру обучения для RIS, которая сочетает в себе маскирование изображений и текста с обучением, учитывающим искажения. MaskRIS решает проблемы традиционного дополнения данных в RIS, минимизируя семантические искажения и повышая разнообразие данных. Наш подход укрепляет устойчивость модели к окклюзиям и неполной информации, достигая новых рекордов по точности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Результаты демонстрируют эффективность и адаптивность MaskRIS как универсального и мощного базового решения для дальнейшего развития в области RIS.