EMOv2: Прорыв в легковесных моделях компьютерного зрения

Современные задачи компьютерного зрения требуют высокопроизводительных моделей, способных работать в условиях ограниченных ресурсов. Это особенно актуально для мобильных устройств, где вычислительные мощности и память ограничены. В данной статье мы рассмотрим подходы, предложенные в работе EMOv2, которые направлены на создание легковесных и эффективных архитектур для задач плотного предсказания, сохраняя при этом высокую производительность.

Легковесные модели

Легковесные модели играют ключевую роль в сценариях с ограниченными ресурсами, и их разработка привлекла внимание исследователей. Ранее существующие подходы можно разделить на две категории:

Модели с меньшим количеством операций (FLOPs) и более высокой скоростью вывода на специализированном оборудовании, которые не акцентируют внимание на количестве параметров и плохо работают с высокими разрешениями.
Модели, которые балансируют между FLOPs и производительностью при ограниченном количестве параметров, что приводит к созданию более компактных моделей.

С развитием вычислительных устройств большинство современных моделей достигают пропускной способности в несколько тысяч и задержки в пределах реального времени (20 мс), где вычислительная мощность не является узким местом для приложений малых моделей.

Идея EMOv2

Основной идеей EMOv2 является создание легковесных моделей с эффективной архитектурой для выполнения задач компьютерного зрения. Мы переосмысливаем легковесную инфраструктуру, основанную на Inverted Residual Block (IRB) и компонентах Transformer, с целью объединить их преимущества.

Meta Mobile Block (MMBlock)

Мы абстрагируем один резидуальный блок, который можно использовать для создания различных модулей, таких как IRB, Multi-Head Self-Attention (MHSA) и Feed-Forward Network (FFN). Это позволяет создавать более мощные и компактные модели, которые могут легко адаптироваться к различным задачам.

Улучшенный Inverted Residual Mobile Block (i²RMB)

На основе MMBlock мы разрабатываем улучшенный Inverted Residual Mobile Block (i²RMB), который включает в себя эффективные механизмы внимания и сверточные операции. Это позволяет значительно увеличить производительность модели, сохраняя при этом низкое количество параметров.

Способы повышения производительности

Спанинг внимания (SEW-MHSA)

Одним из ключевых улучшений, внедренных в EMOv2, является механизм спанинга внимания, который одновременно моделирует взаимодействия между соседними и удаленными признаками, не увеличивая количество параметров. Это значительно увеличивает эффективность модели и улучшает ее производительность на задачах с высоким разрешением.

Обучение и оптимизация

Мы также исследуем различные стратегии обучения, чтобы максимизировать потенциал модели в задачах классификации изображений. В результате EMOv2-5M достигает 82.9% точности Top-1, что поднимает производительность моделей с 5M параметров на новый уровень.

Эксперименты и результаты

Обширные эксперименты на различных задачах компьютерного зрения, включая распознавание, плотное предсказание и генерацию изображений, демонстрируют превосходство EMOv2 над современными методами. Например, EMOv2-5M достигает 79.4% точности Top-1, что значительно превышает аналогичные CNN- и attention-ориентированные модели.

Объектное обнаружение

EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP в задачах обнаружения объектов, что является наилучшим результатом среди легковесных моделей. Это подчеркивает эффективность нашей архитектуры в реальных приложениях.

Сегментация изображений

При применении EMOv2 к сегментации изображений мы наблюдаем значительные улучшения в производительности по сравнению с предыдущими версиями моделей. Например, U-EMOv2 достигает 88.3% mAcc на HRF, что демонстрирует универсальность и мощность предложенной архитектуры.

Заключение

Работа EMOv2 представляет собой значительный шаг вперед в разработке легковесных моделей для задач компьютерного зрения. Мы переосмыслили инфраструктуру, объединив элементы IRB и Transformer, чтобы создать эффективные модели, которые могут быть адаптированы для различных приложений. Результаты наших экспериментов показывают, что EMOv2 не только превосходит существующие решения, но и открывает новые возможности для дальнейших исследований в области легковесного глубокого обучения.

Статья на arxiv Оригинал pdf lightweight transformer performance

Ай Дайджест