Свежая выжимка ml и AI статей - каждый день
Водяные знаки в изображениях используются для встраивания информации в пиксели изображения таким образом, чтобы она была невидима для человеческого глаза, но при этом оставалась устойчивой к различным манипуляциям. Традиционно, водяные знаки применялись для защиты авторских прав и предотвращения копирования, особенно в киноиндустрии. Однако с развитием технологий и особенно генеративных моделей ИИ (LLM, AI), применение водяных знаков расширилось, охватывая новые области, такие как идентификация контента, созданного искусственным интеллектом, в соответствии с нормативными актами различных стран.
Традиционные методы водяных знаков сталкиваются с трудностями при обработке изображений, где водяной знак занимает лишь небольшую часть изображения или когда части изображения были изменены или удалены. Такие методы обычно принимают одно глобальное решение на изображение, что делает их уязвимыми к атакам, таким как инпейтинг или сплайсинг, где водяной знак может быть легко удален или затруднен для обнаружения.
WAM (Watermark Anything Model) представляет собой новый подход к водяным знакам, который рассматривает их как задачу сегментации. Вместо того чтобы встраивать водяной знак в изображение целиком, WAM встраивает его в локализованные области, что позволяет:
WAM состоит из двух основных компонентов:
Встраиватель (Embedder): Преобразует изображение и сообщение в латентное пространство, где сообщение встраивается в изображение. Используется автоэнкодер, основанный на архитектуре LDM (Latent Diffusion Model), для эффективного сжатия и декодирования изображения.
Экстрактор (Extractor): Определяет, присутствует ли водяной знак, и извлекает его из каждого пикселя изображения. Экстрактор использует архитектуру, аналогичную Segment Anything Model (SAM), с использованием ViT (Vision Transformer) и пиксельного декодера для сегментации и извлечения.
Тренировка WAM проходит в два этапа:
Предобучение: Модель обучается на низкоразрешенных изображениях для обеспечения устойчивости к различным аугментациям, таким как обрезка, сжатие JPEG, и т.д. В этом этапе модель не учитывает перцептивные потери, фокусируясь на точности локализации и извлечения.
Постобучение: Целью этого этапа является уменьшение видимости водяного знака и обеспечение возможности встраивания нескольких сообщений в одном изображении. Используется карта JND (Just-Noticeable-Difference) для модификации интенсивности водяного знака в зависимости от восприимчивости человеческого глаза.
WAM показала конкурентоспособные результаты по сравнению с другими методами водяных знаков в плане невидимости и устойчивости, особенно против атак инпейтинга и сплайсинга. Модель также продемонстрировала способность локализовать водяные знаки в изображениях и извлекать несколько различных сообщений с высокой точностью.
WAM представляет собой значительный шаг вперед в области водяных знаков, предлагая новые возможности для их применения. Однако, существуют и ограничения, такие как низкая полезная нагрузка (до 32 бит) и видимость водяного знака в некоторых областях изображения. Будущие исследования могут сосредоточиться на улучшении перцептивного качества и увеличении емкости встраиваемых сообщений.
Таким образом, WAM открывает новые горизонты в области защиты и идентификации контента, предлагая инструменты, которые могут быть полезны в различных сферах, от искусства до безопасности информации.