Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Экспоненциальный рост технологий генеративного искусственного интеллекта (AI), таких как Stable Diffusion, DALL-E, Midjourney и Imagen, привел к революционным изменениям в создании визуального контента. Эти модели, способные превращать текст в изображения, открывают перед нами невиданные ранее творческие возможности. Однако, вместе с этим прогрессом появляются и серьезные вызовы, особенно в области распространения дезинформации с помощью AI-сгенерированных изображений.

В марте 2023 года открытое письмо, подписанное множеством экспертов в области AI и лидеров индустрии, призвало к шестимесячному мораторию на разработку AI-систем, превосходящих по своим возможностям GPT-4. Основной вопрос, поднятый в письме, звучал так: "Должны ли мы позволить машинам заполнять наши информационные каналы пропагандой и неправдой?" Хотя мнения о необходимости такого моратория могут разниться, игнорировать поднятую проблему невозможно.

Последняя, седьмая, оценка Европейской комиссии по Кодексу поведения, направленная на искоренение дезинформации в интернете, показала снижение отзывчивости компаний. Процент уведомлений, рассмотренных компаниями в течение 24 часов, упал с 90.4% в 2020 году до 64.4% в 2022 году. Это снижение, вероятно, отражает увеличение доступности моделей генеративного AI, что привело к значительному притоку AI-сгенерированного контента в интернет.

С учетом того, что ежедневно на социальные медиа-платформы загружается около 3.2 миллиардов изображений и 720,000 часов видео, необходимость в надежных методах обнаружения AI-сгенерированных изображений (AGID) становится более актуальной, чем когда-либо. Например, ложное изображение взрыва рядом с Пентагоном, распространенное несколькими верифицированными аккаунтами в Twitter 22 мая 2023 года, вызвало путаницу и привело к кратковременному падению фондового рынка.

Правительства по всему миру начали обсуждать и принимать меры по разработке политики, касающейся AI-систем. Европейский союз уже принял законодательные меры, тогда как США и другие страны ввели предварительные предложения по регулированию AI. Одной из главных забот политиков является то, что "Генеративный AI может действовать как усилитель политической дезинформации. Совместное воздействие генеративного текста, изображений, видео и аудио может превзойти влияние любого отдельного модуса."

Кроме того, разработчики политики в области AI выразили значительные опасения по поводу использования автоматической маркировки или невидимых водяных знаков как технического решения проблем, вызванных дезинформацией, созданной генеративным AI. Однако, существуют постоянные опасения относительно уязвимости этих мер к преднамеренному вмешательству и потенциальной возможности злоумышленников обойти их полностью.

В этой статье мы предлагаем всесторонний обзор методов AGID, подчеркивая их ограничения и выявляя значительные недостатки в современных методах. Эта статья служит призывом к действию для научного сообщества, чтобы приоритет был отдан разработке более надежных и эффективных решений AGID. С этой целью мы представляем Visual Counter Turing Test (VCT2), бенчмарк, разработанный для оценки производительности методов AGID. VCT2 включает около 130 тысяч изображений, созданных современными моделями текст-в-изображение (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). Бенчмарк создан с использованием двух различных наборов подсказок: один извлечен из твитов аккаунта The New York Times в Twitter, другой - из подписей к изображениям из датасета MS COCO.

Обзор текущих методов обнаружения AI-сгенерированных изображений

В последние годы обнаружение AI-сгенерированных изображений стало критически важной областью исследований. Этот раздел представляет обзор литературы по обнаружению синтетических или AI-сгенерированных изображений, как показано на рисунке 2. Методы обнаружения можно разделить на две основные группы: Обнаружение на основе артефактов генерации и Обнаружение на основе представлений признаков.

Обнаружение на основе артефактов генерации

Эти методы сосредоточены на выявлении артефактов генерации в пространственной и частотной областях. Например, Тан и соавторы обнаружили, что оператор апсемплинга может создавать артефакты не только в частотных узорах, но и в расположении пикселей в изображении. Эти артефакты особенно заметны в изображениях, созданных GAN или моделями диффузии. Опираясь на это наблюдение, авторы ввели концепцию соседних пиксельных отношений как средство захвата и характеризации обобщенных структурных артефактов, возникающих в результате операций апсемплинга.

Корви и его коллеги обнаружили, что синтетические изображения, особенно те, которые создаются GAN и некоторыми моделями диффузии, такими как GLIDE и Stable Diffusion, имеют заметные различия в их средне-высоких частотных сигналах по сравнению с реальными изображениями. Однако эти различия не так заметны в изображениях, созданных другими моделями, такими как DALL-E и ADM. Хотя их метод очень точен при различении синтетических и реальных изображений, когда оба типа четко помечены в отдельных папках, он испытывает трудности с идентификацией сгенерированных изображений в реальных условиях.

Долорель и его команда исследовали моделирование маскированных изображений для универсального обнаружения поддельных изображений. Они изучали как пространственное, так и частотное маскирование и, основываясь на эмпирическом анализе, предложили детектор глубоких подделок через частотное маскирование.

Чен и его коллеги сосредоточились на улучшении обобщаемости детекторов путем генерации сложных образцов через высококачественную реконструкцию диффузии. Эти реконструированные изображения, которые очень похожи на реальные, но содержат тонкие артефакты, помогают обучать детекторы лучше различать реальные и сгенерированные изображения, даже от невидимых моделей.

Обнаружение на основе представлений признаков

Эти методы различают реальные изображения от синтезированных, используя представления, полученные от нейронных сетей, которые превосходно справляются с различными задачами компьютерного зрения, такими как супер-разрешение изображений, классификация, сегментация и дополнение точечных облаков.

Ванг и его команда стремились создать универсальный детектор. Они обнаружили, что стандартный классификатор ResNet-50 с случайным размытием и сжатием JPEG, обученный только на одном конкретном генераторе CNN (ProGAN), может хорошо обобщаться почти на все остальные невидимые архитектуры, а также на модели, введенные позже (StyleGAN2 и StyleGAN3).

Статья на arxiv Оригинал pdf misinformation evaluation gan

Ай Дайджест

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Обзор текущих методов обнаружения AI-сгенерированных изображений

Обнаружение на основе артефактов генерации

Обнаружение на основе представлений признаков