Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "cnn"

EMOv2: Прорыв в легковесных моделях компьютерного зрения

Эта работа сосредоточена на разработке параметрически эффективных и легковесных моделей для плотных предсказаний, балансируя между параметрами, FLOPs и производительностью. Наша цель — установить новую границу легковесной модели величиной 5M на различных downstream задачах. Инвертированный residual блок (IRB) служит инфраструктурой для легковесных CNN, но аналогов с учетом внимания не было признано. Наша работа переосмысливает легковесную инфраструктуру эффективного IRB и практические компоненты в Transformer с единой точки зрения, расширяя основанный на CNN IRB для моделей, основанных на внимании, и абстрагируя один residual Meta Mobile Block (MMBlock) для проектирования легковесных моделей. Следуя аккуратным, но эффективным критериям проектирования, мы выводим современный улучшенный инвертированный residual мобильный блок (i2RMB) и улучшаем иерархическую эффективную модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей в сетях 4G/5G и обеспечивая производительность моделей, мы исследуем предельную производительность легковесных моделей с масштабом 5M. Обширные эксперименты по различным задачам распознавания образов, плотного предсказания и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами; например, EMOv2-1M/2M/5M достигает 72.3, 75.8 и 79.4 Top-1, что значительно превышает аналогичные CNN-/Attention-модели. В то же время EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP для задач обнаружения объектов, что на +2.6 превышает предыдущий EMO-5M. При использовании более надежного рецепта обучения наш EMOv2-5M в конечном итоге достигает 82.9 Top-1 точности, что поднимает производительность моделей величиной 5M на новый уровень. Код доступен по адресу https://github.com/zhangzjn/EMOv2.

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.