Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

В последние годы текстовые водяные знаки стали важным инструментом для защиты авторских прав и передачи скрытых сообщений. С развитием больших языковых моделей (LLM) возникает необходимость отслеживания распространения дезинформации, генерируемой этими моделями. В данной статье мы рассмотрим методику внедрения многоразрядного водяного знака в текст с помощью парафразирования, обеспечивая при этом сохранение семантического значения оригинального текста.

Основные понятия

Многоразрядный текстовый водяной знак

Основная цель работы заключается в внедрении многоразрядного водяного знака в текст. Водяной знак кодируется в текст с использованием специального парафразера, который изменяет оригинальный текст таким образом, чтобы водяной знак был незаметен для человеческого глаза. Водяной знак может быть декодирован с помощью классификатора текста, который определяет, какие биты были внедрены.

Требования к водяным знакам

При разработке парафразирования для внедрения водяных знаков необходимо учитывать несколько требований:

Фиделити: Водяной знак не должен изменять семантическое значение оригинального текста.
Точность: Декодер должен точно извлекать водяной знак из текста.
Устойчивость: Водяной знак должен сохраняться после различных искажений текста.
Незаметность: Водяной знак не должен быть легко обнаружимым.

Методология

Общая схема

Процесс внедрения водяного знака включает два основных этапа: кодирование и декодирование. На этапе кодирования мы используем LLM-парафразер для преобразования оригинального текста с учетом заранее определенного водяного знака. На этапе декодирования текст делится на сегменты, и каждый сегмент анализируется классификатором для извлечения водяного знака.

Кодировщик: LLM-парафразер

Кодировщик, основанный на LLM, отвечает за парафразирование входного текста с учетом заданного водяного знака. Мы используем две разные модели парафразеров, которые чередуются в процессе генерации токенов. Это позволяет обеспечить разнообразие в парафразах и улучшить устойчивость водяного знака.

Декодер: Классификатор текста

Декодер выполняет задачу извлечения водяного знака из текста. Он классифицирует каждый сегмент текста и определяет, какой бит водяного знака был внедрен. Для оптимизации декодера используется функция потерь кросс-энтропии, что позволяет обеспечить высокую точность извлечения.

Совместное обучение

В нашем методе используется совместное обучение, при котором кодировщик и декодер обновляются поочередно. Это позволяет улучшить качество парафразирования и точность декодирования. При этом декодер выступает в роли модели вознаграждения, что позволяет оптимизировать кодировщик с использованием методов обучения с подкреплением.

Экспериментальные результаты

Мы провели обширные эксперименты для оценки эффективности нашего подхода. В результате мы достигли высокой точности обнаружения водяного знака, превышающей 99,99%, при этом сохраняя семантическое значение оригинального текста. Более того, наша методика показала хорошую устойчивость к различным искажениям, таким как замена слов и парафразирование предложений.

Сравнение с базовыми методами

Мы сравнили нашу методику с несколькими существующими методами и продемонстрировали значительно лучшие результаты как по точности извлечения водяного знака, так и по качеству парафразирования. В частности, наше решение показало высокую степень незаметности, что делает его более предпочтительным для практического применения.

Обсуждение

Устойчивость к искажениям

Одной из ключевых особенностей нашего подхода является его устойчивость к различным типам искажений. Мы провели тесты на устойчивость к замене слов и парафразированию предложений, и результаты показали, что наш водяной знак сохраняется даже при значительных изменениях текста.

Генерализация на данные вне распределения

Мы также оценили способность нашей модели к обобщению на данных, не входящих в распределение. Результаты показали, что наша модель сохраняет высокую точность даже при тестировании на новых данных, что подтверждает ее универсальность и применимость в различных сценариях.

Заключение

В данной работе мы предложили метод внедрения многоразрядного текстового водяного знака с использованием LLM-парафразеров. Наш подход обеспечивает высокую точность обнаружения, хорошую фиделити и незаметность, а также устойчивость к различным искажениям. Мы уверены, что наша методология откроет новые горизонты в области текстовых водяных знаков и их применения в современных системах защиты информации.

Статья на arxiv Оригинал pdf decoder paraphrasing watermark

Ай Дайджест