Водяные знаки в локализованных сообщениях: Обзор модели WAM

Водяные знаки в изображениях используются для встраивания информации в пиксели изображения таким образом, чтобы она была невидима для человеческого глаза, но при этом оставалась устойчивой к различным манипуляциям. Традиционно, водяные знаки применялись для защиты авторских прав и предотвращения копирования, особенно в киноиндустрии. Однако с развитием технологий и особенно генеративных моделей ИИ (LLM, AI), применение водяных знаков расширилось, охватывая новые области, такие как идентификация контента, созданного искусственным интеллектом, в соответствии с нормативными актами различных стран.

Проблемы с традиционными методами водяных знаков

Традиционные методы водяных знаков сталкиваются с трудностями при обработке изображений, где водяной знак занимает лишь небольшую часть изображения или когда части изображения были изменены или удалены. Такие методы обычно принимают одно глобальное решение на изображение, что делает их уязвимыми к атакам, таким как инпейтинг или сплайсинг, где водяной знак может быть легко удален или затруднен для обнаружения.

Модель WAM (Watermark Anything Model)

Основные концепции

WAM (Watermark Anything Model) представляет собой новый подход к водяным знакам, который рассматривает их как задачу сегментации. Вместо того чтобы встраивать водяной знак в изображение целиком, WAM встраивает его в локализованные области, что позволяет:

Обнаруживать и извлекать водяные знаки из небольших участков изображения.
Устойчивость к атакам, включая инпейтинг и сплайсинг, где только часть изображения может быть водяной знаком.
Извлечение нескольких сообщений из одного изображения, что является новой возможностью, не рассмотренной в предыдущих методах.

Архитектура модели

WAM состоит из двух основных компонентов:

Встраиватель (Embedder): Преобразует изображение и сообщение в латентное пространство, где сообщение встраивается в изображение. Используется автоэнкодер, основанный на архитектуре LDM (Latent Diffusion Model), для эффективного сжатия и декодирования изображения.
Экстрактор (Extractor): Определяет, присутствует ли водяной знак, и извлекает его из каждого пикселя изображения. Экстрактор использует архитектуру, аналогичную Segment Anything Model (SAM), с использованием ViT (Vision Transformer) и пиксельного декодера для сегментации и извлечения.

Тренировка модели

Тренировка WAM проходит в два этапа:

Предобучение: Модель обучается на низкоразрешенных изображениях для обеспечения устойчивости к различным аугментациям, таким как обрезка, сжатие JPEG, и т.д. В этом этапе модель не учитывает перцептивные потери, фокусируясь на точности локализации и извлечения.
Постобучение: Целью этого этапа является уменьшение видимости водяного знака и обеспечение возможности встраивания нескольких сообщений в одном изображении. Используется карта JND (Just-Noticeable-Difference) для модификации интенсивности водяного знака в зависимости от восприимчивости человеческого глаза.

Эксперименты и результаты

WAM показала конкурентоспособные результаты по сравнению с другими методами водяных знаков в плане невидимости и устойчивости, особенно против атак инпейтинга и сплайсинга. Модель также продемонстрировала способность локализовать водяные знаки в изображениях и извлекать несколько различных сообщений с высокой точностью.

Заключение и перспективы

WAM представляет собой значительный шаг вперед в области водяных знаков, предлагая новые возможности для их применения. Однако, существуют и ограничения, такие как низкая полезная нагрузка (до 32 бит) и видимость водяного знака в некоторых областях изображения. Будущие исследования могут сосредоточиться на улучшении перцептивного качества и увеличении емкости встраиваемых сообщений.

Дополнительные аспекты

Этическое заявление: WAM, как и любая технология водяных знаков, имеет потенциальные социальные и этические последствия, включая вопросы конфиденциальности и возможности злоупотребления.
Экологическое воздействие: Тренировка и эксплуатация моделей требуют значительных вычислительных ресурсов, что поднимает вопросы об их экологическом следе.

Таким образом, WAM открывает новые горизонты в области защиты и идентификации контента, предлагая инструменты, которые могут быть полезны в различных сферах, от искусства до безопасности информации.

Статья на arxiv Оригинал pdf extraction segmentation robustness

Ай Дайджест