AnySat: Модель наблюдения за Землёй для любых разрешений, масштабов и модальностей

Современные технологии наблюдения за Землёй (EO) предоставляют разнообразные данные, которые варьируются по разрешению, масштабу и модальности. Однако существующие подходы часто требуют фиксированных конфигураций входных данных, что ограничивает их практическое применение. В этой статье мы рассмотрим модель AnySat, основанную на совместной эмбеддинговой предсказательной архитектуре (Joint Embedding Predictive Architecture, JEPA) и адаптивных пространственных кодировщиках, которая позволяет обучать единую модель на гетерогенных данных в самонастраиваемом режиме.

Проблематика существующих моделей EO

С точки зрения удалённого зондирования, естественные изображения, используемые в компьютерном зрении, имеют значительную однородность, так как они обычно захватываются идентичными сенсорами (стандартными камерами) с одинаковыми RGB-каналами и часто с похожих ракурсов. Это позволяет создавать большие составные наборы изображений из различных источников, что является ключевым для моделей, которые учатся извлекать мощные общие признаки.

В отличие от этого, данные EO демонстрируют значительную изменчивость в модальностях, масштабах и пространственно-временных разрешениях. Существующие модели EO, как правило, обучаются на одном наборе данных с определённым форматом и не могут быть применены к наборам данных с другими типами входных данных без повторного обучения с нуля. Это противоречит концепции основополагающих моделей, которые должны бесшовно интегрировать новые наборы данных для обучения и предсказания, независимо от их разрешения, масштаба и модальности.

AnySat: Новая архитектура

AnySat представляет собой универсальную архитектуру, способную учиться на нескольких источниках EO с гетерогенными разрешениями, масштабами и модальностями. Ключевым аспектом этой модели является использование пространственного выравнивания нескольких модальностей как источника самонастройки. Множественные наблюдения одной и той же области от разных сенсоров захватывают различную информацию, но имеют общую семантику. Это позволяет ожидать, что изученные представления будут согласованы между модальностями.

JEPA: Совместная эмбеддинговая предсказательная архитектура

JEPA позволяет избежать необходимости в модальности-специфических декодерах, что упрощает обработку различных сенсоров. Эта архитектура, в сочетании с адаптивными кодировщиками патчей, позволяет обучать единую модель на высоко гетерогенных коллекциях многомодальных EO наборов данных. Более 75% обучаемых параметров в модели являются общими для всех модальностей и разрешений, что способствует более эффективному обучению на большом и разнообразном источнике данных.

Адаптивная кодировка патчей

AnySat использует адаптивные кодировщики патчей, которые могут обрабатывать патчи различного размера, что позволяет адаптироваться к значительным изменениям масштаба в наборах данных EO. Каждый патч кодируется с помощью специфичного для модальности проектора, после чего общий трансформер объединяет представления из нескольких модальностей в единое представление для каждого пространственного патча.

GeoPlex: Набор данных для обучения

Для демонстрации преимуществ подхода AnySat был собран GeoPlex, коллекция из пяти многомодальных наборов данных с 11 различными сенсорами. GeoPlex охватывает различные пространственные разрешения (от 0,2 до 250 м на пиксель), временные интервалы (от одиночных изображений до недельных временных рядов), количество каналов (от 3 до 11) и пространственные размеры (от 0,4 до 160 гектаров). Это разнообразие позволяет продемонстрировать универсальность AnySat и его способность к обучению на различных наборах данных одновременно.

Обучение и дообучение

Самонастройка

AnySat обучается в самонастраиваемом режиме на наборах данных с различными характеристиками и модальностями без меток. Студенческая сеть работает с сильно замаскированными входными данными, в то время как учительская сеть видит всю входную информацию. Цель студенческой сети — объединить всю доступную информацию для предсказания эмбеддингов учителя.

Процесс дообучения

После предварительного обучения модель может быть дообучена для выполнения различных задач, таких как классификация, семантическая сегментация и обнаружение изменений. Это достигается путём добавления токена [CLS] для классификации и использования многослойного перцептрона (MLP) для семантической сегментации.

Оценка производительности

AnySat была оценена на нескольких наборах данных, включая GeoPlex и дополнительные внешние наборы данных. Модель достигает состояния наилучшей производительности по сравнению с другими современными подходами в задачах классификации, сегментации и обнаружения изменений.

Результаты на GeoPlex

AnySat демонстрирует новые достижения в производительности на тестовых наборах GeoPlex, включая улучшение в 0,9 балла по взвешенной F1-оценке для TreeSatAI-TS и 2,8 mIoU для PASTIS-HD. Эти результаты подтверждают, что предварительное обучение на GeoPlex способствует более богатым и устойчивым представлениям.

Результаты на внешних наборах данных

AnySat также значительно превосходит состояние наилучшей производительности на трёх внешних наборах данных, что подчеркивает её сильные обобщающие способности, несмотря на различия в конфигурациях сенсоров.

Заключение

AnySat представляет собой многофункциональную архитектуру, разработанную для решения проблемы разнообразия данных EO в терминах разрешений, масштабов и модальностей. Используя совместную эмбеддинговую предсказательную архитектуру и адаптивные пространственные кодировщики, AnySat может быть обучена в самонастраиваемом режиме на высоко гетерогенных наборах данных. Предварительно обученная на GeoPlex, модель достигает состояния наилучшей производительности по нескольким наборам данных, задачам и модальностям. Ключевым преимуществом AnySat является её способность применяться и дообучаться на широком спектре комбинаций типов данных и масштабов с помощью одной модели.

Статья на arxiv Оригинал pdf geospatial multimodal datasets

Ай Дайджест