Ай Дайджест - категория gan

Масштабирование токенизаторов изображений с помощью групповой сферической квантизации

Токенизаторы зрения приобрели большую популярность благодаря своей масштабируемости и компактности; предыдущие работы зависели от устаревших гиперпараметров на основе GAN, предвзятых сравнений и недостатка комплексного анализа масштабируемого поведения. Чтобы решить эти проблемы, мы представляем Групповую Сферическую Квантовку (GSQ), которая включает инициализацию шарового кодовогоbook и регуляризацию поиска, чтобы ограничить латентный кодовыйbook на сферической поверхности. Наш эмпирический анализ стратегий обучения токенизаторов изображений демонстрирует, что GSQ-GAN достигает превосходного качества реконструкции по сравнению с современными методами при меньшем количестве итераций обучения, обеспечивая надежную основу для исследований масштабирования. Основываясь на этом, мы систематически изучаем масштабируемое поведение GSQ, в частности в отношении латентной размерности, размера кодовогоbook и коэффициентов сжатия, а также их влияние на производительность модели. Наши выводы показывают различные поведения на высоких и низких уровнях пространственного сжатия, подчеркивая проблемы в представлении многомерных латентных пространств. Мы показываем, что GSQ может реконструировать многомерные латентные пространства в компактные, низкоразмерные пространства, что позволяет эффективно масштабироваться с улучшенным качеством. В результате, GSQ-GAN достигает 16-кратного уменьшения сжатия с реконструкцией FID (rFID) 0.50.

2024-12-04dimensionality tokenizers gan

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

2024-11-27benchmark gan dataset

Введение в MyTimeMachine: Персонализированная трансформация возраста лица

Стареющее лицо - это сложный процесс, который в значительной степени зависит от множества факторов, таких как пол, этническая принадлежность, образ жизни и т.д., что делает крайне трудным изучение глобальных предшествующих возрастных изменений для точного прогнозирования старения для любого индивида. Существующие методики часто дают реалистичные и правдоподобные результаты старения, но изображения, подвергнутые старению, часто не соответствуют внешнему виду человека в целевом возрасте, и поэтому требуют персонализации. Во многих практических приложениях виртуального старения, например, в спецэффектах для фильмов и телешоу, доступ к личной фотоколлекции пользователя, отражающей процесс старения в небольшом временном интервале (20-40 лет), обычно имеется. Однако наивные попытки персонализировать глобальные техники старения на личных фотоальбомах часто терпят неудачу. Таким образом, мы предлагаем MyTimeMachine (MyTM), который сочетает в себе глобальные предшествующие возрастные изменения с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированной трансформации возраста. Мы представляем новую Адаптерную Сеть, которая объединяет персонализированные черты старения с глобальными чертами и генерирует изображение с измененным возрастом с помощью StyleGAN2. Мы также вводим три функции потерь для персонализации Адаптерной Сети с персонализированной потерей старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, обеспечивая высококачественные, сохраняющие идентичность и временно согласованные эффекты старения, которые соответствуют реальному внешнему виду в целевые возраста, демонстрируя свое превосходство над современными методами.

2024-11-25transformation gan regularization