Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

В последние годы наблюдается значительный прогресс в области компьютерного зрения и машинного обучения, особенно в задачах, связанных с геолокацией изображений. В данной статье рассматривается новаторский подход, предложенный Николя Дюфором и его коллегами, который использует генеративные модели, такие как диффузионные модели и методы сопоставления потока, для решения задачи глобальной визуальной геолокации.

Глобальная визуальная геолокация заключается в предсказании местоположения, где было сделано изображение, основываясь исключительно на его визуальном контенте. Эта задача важна во многих областях, включая археологию, судебную экспертизу и организацию мультимедийных архивов. Однако существующие методы геолокации часто игнорируют степень неопределенности, связанную с локализацией изображений. Например, изображение, сделанное на безлюдном пляже, может быть локализовано с низкой точностью, в то время как фото известного памятника, такого как Эйфелева башня, может быть локализовано с высокой точностью.

Генеративный подход к геолокации

В отличие от традиционных детерминированных методов, которые выдают одно значение для местоположения, предложенный подход основан на генеративных моделях, которые способны учитывать неопределенность. Это достигается за счет использования методов диффузии и сопоставления потока, которые позволяют моделировать распределение вероятностей для всех возможных местоположений изображения.

Диффузионные модели

Диффузионные модели работают путем добавления гауссовского шума к данным и обучения нейронной сети для обратного процесса удаления шума. В контексте геолокации, модель обучается на парах координат-изображение, где к истинным координатам добавляется шум. Затем нейронная сеть предсказывает этот шум, учитывая визуальные особенности изображения. После обучения модель может предсказывать местоположение нового изображения, итеративно уменьшая шум до тех пор, пока не будет получено вероятное местоположение.

Сопоставление потока

Методы сопоставления потока обобщают диффузионные модели, предоставляя более высокую производительность и универсальность. В этой методологии используется концепция векторного поля, чтобы предсказать, как координаты изображения должны изменяться для достижения истинного местоположения. Это позволяет более точно учитывать геометрические особенности Земли, что особенно важно для задач геолокации.

Риманова геометрия

Одним из ключевых аспектов предложенного подхода является использование римановой геометрии для обработки координат на поверхности Земли. В отличие от традиционных методов, которые работают в евклидическом пространстве, риманово сопоставление потока позволяет учитывать кривизну Земли, что значительно улучшает точность локализации.

Моделирование пространственной неопределенности

Одной из основных проблем в геолокации является пространственная неопределенность. Например, изображения, сделанные в местах с низкой визуальной информативностью, могут быть локализованы с большой неопределенностью. Предложенный подход позволяет моделировать эту неопределенность, что приводит к более качественным предсказаниям.

Вероятностная визуальная геолокация

В рамках нового подхода также вводится задача вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей для всех возможных местоположений, а не одно значение. Это позволяет более точно отражать неопределенность, связанную с локализацией.

Эксперименты и результаты

Модель была протестирована на трех крупных наборах данных: OpenStreetView-5M, YFCC-100M и iNat21. В результате проведенных экспериментов было показано, что предложенный подход превосходит существующие методы геолокации, достигая состояния наилучшей практики на всех трех наборах данных.

Метрики оценки

Для оценки производительности модели были разработаны новые метрики, учитывающие как точность предсказания, так и качество вероятностных распределений. Это позволяет более точно оценивать, насколько хорошо модель справляется с задачей геолокации.

Заключение

Предложенный генеративный подход к глобальной визуальной геолокации, основанный на диффузионных моделях и римановом сопоставлении потока, представляет собой значительный шаг вперед в этой области. Он не только улучшает точность предсказаний, но и позволяет учитывать неопределенность, связанную с локализацией изображений. Это открывает новые возможности для применения в различных областях, где важно точно определять местоположение на основе визуального контента.

В будущем исследователи могут использовать этот подход для улучшения существующих систем геолокации и разработки новых приложений, которые требуют высокоточной локализации изображений в условиях неопределенности.

Статья на arxiv Оригинал pdf diffusion generative probability

Ай Дайджест