Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "lightweight"

EMOv2: Прорыв в легковесных моделях компьютерного зрения

Эта работа сосредоточена на разработке параметрически эффективных и легковесных моделей для плотных предсказаний, балансируя между параметрами, FLOPs и производительностью. Наша цель — установить новую границу легковесной модели величиной 5M на различных downstream задачах. Инвертированный residual блок (IRB) служит инфраструктурой для легковесных CNN, но аналогов с учетом внимания не было признано. Наша работа переосмысливает легковесную инфраструктуру эффективного IRB и практические компоненты в Transformer с единой точки зрения, расширяя основанный на CNN IRB для моделей, основанных на внимании, и абстрагируя один residual Meta Mobile Block (MMBlock) для проектирования легковесных моделей. Следуя аккуратным, но эффективным критериям проектирования, мы выводим современный улучшенный инвертированный residual мобильный блок (i2RMB) и улучшаем иерархическую эффективную модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей в сетях 4G/5G и обеспечивая производительность моделей, мы исследуем предельную производительность легковесных моделей с масштабом 5M. Обширные эксперименты по различным задачам распознавания образов, плотного предсказания и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами; например, EMOv2-1M/2M/5M достигает 72.3, 75.8 и 79.4 Top-1, что значительно превышает аналогичные CNN-/Attention-модели. В то же время EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP для задач обнаружения объектов, что на +2.6 превышает предыдущий EMO-5M. При использовании более надежного рецепта обучения наш EMOv2-5M в конечном итоге достигает 82.9 Top-1 точности, что поднимает производительность моделей величиной 5M на новый уровень. Код доступен по адресу https://github.com/zhangzjn/EMOv2.