MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам
Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.