EfficientViM: Эффективная архитектура для компьютерного зрения

В последние годы компьютерное зрение сделало значительные шаги вперед благодаря развитию нейронных сетей. Однако, с увеличением сложности моделей, возникает проблема их развертывания в условиях ограниченных ресурсов, таких как мобильные и встроенные устройства. В ответ на эту проблему разработаны легковесные архитектуры, которые используют свертки и механизмы внимания для захвата локальных и глобальных зависимостей. В этой статье мы рассмотрим новую архитектуру под названием Efficient Vision Mamba (EfficientViM), которая эффективно захватывает глобальные зависимости с минимальными вычислительными затратами.

Архитектура EfficientViM

EfficientViM основан на концепции смешивания скрытых состояний и двойственности состояния пространства (HSM-SSD). Эта архитектура переосмысляет предыдущие слои SSD, позволяя выполнять операции смешивания каналов внутри скрытых состояний. Это позволяет значительно снизить вычислительные затраты, сохраняя при этом высокую производительность.

Состояние пространства и его двойственность

Состояние пространства (State Space Model, SSM) представляет собой подход, который обеспечивает линейную вычислительную сложность при взаимодействии глобальных токенов. Это позволяет моделям достигать хорошей производительности без значительных затрат на вычисления. В EfficientViM используется модифицированная версия SSM, которая устраняет узкие места, связанные с памятью, и улучшает обобщающую способность модели.

HSM-SSD слой

Слой HSM-SSD в EfficientViM выполняет смешивание скрытых состояний, что позволяет эффективно обрабатывать глобальный контекст. Этот слой включает в себя линейные проекции и функции активации, которые применяются к скрытым состояниям. Это позволяет снизить вычислительные затраты с O(LD^2) до O(ND^2), где N — количество состояний, а D — количество каналов.

Многоуровневое смешивание скрытых состояний

Для повышения представительной способности скрытых состояний в EfficientViM реализован механизм многоуровневого смешивания скрытых состояний (MSF). Этот механизм позволяет объединять предсказания логитов, используя скрытые состояния из нескольких этапов сети. Это улучшает качество предсказаний, интегрируя как низкоуровневые, так и высокоуровневые признаки.

Сравнение с другими моделями

EfficientViM демонстрирует превосходство по сравнению с предыдущими архитектурами, такими как SHViT и ModelNetV3, как по скорости, так и по точности. Например, EfficientViM-M2 показывает улучшение производительности на 0.6% по сравнению с SHViT, а также значительно ускоряет вычисления.

Испытания на ImageNet-1K

Для оценки эффективности EfficientViM была проведена серия экспериментов на наборе данных ImageNet-1K. Результаты показали, что EfficientViM превосходит все предыдущие легкие сети как по скорости, так и по точности. Например, EfficientViM-M1 достигает производительности в 72.9% с пропускной способностью 20,731 изображение в секунду.

Заключение

EfficientViM представляет собой новаторский подход к построению легковесных архитектур для компьютерного зрения, который эффективно использует преимущества состояния пространства и смешивания скрытых состояний. Это делает его идеальным выбором для развертывания в условиях ограниченных ресурсов, таких как мобильные устройства и встроенные системы. Благодаря высокому соотношению скорости и точности, EfficientViM открывает новые возможности для применения в реальных задачах компьютерного зрения.

Статья на arxiv Оригинал pdf architecture efficiency neural

Ай Дайджест