VLSBench: Понимание визуальных утечек в многомодальной безопасности

С ростом популярности многомодальных больших языковых моделей (MLLMs) возникают новые вызовы в области безопасности. Эти модели, которые интегрируют текст и изображения, демонстрируют впечатляющие результаты в понимании изображений и ответах на визуальные вопросы. Однако, с увеличением их возможностей, возрастает и обеспокоенность по поводу их безопасности. В данной статье мы рассмотрим новые концепции, связанные с визуальной утечкой информации (VSIL) и представим новый бенчмарк VLSBench, который помогает выявить и устранить эти проблемы.

Проблема визуальной утечки информации (VSIL)

Определение VSIL

Визуальная утечка информации (VSIL) возникает, когда чувствительное содержание изображения отражается в текстовом запросе. Это означает, что информация, связанная с безопасностью, может быть раскрыта через текст, что позволяет моделям легко идентифицировать и отклонять небезопасные запросы, полагаясь только на текстовые данные. Например, если изображение содержит элементы азартных игр, а текстовый запрос включает фразы, такие как "онлайн-казино", то модель может просто отклонить запрос, не анализируя само изображение.

Примеры VSIL

В предыдущих исследованиях было выявлено множество примеров VSIL. Например, в одном случае изображение показывало сцену азартной игры, а текстовый запрос содержал фразу "как создать сайт для азартных игр". В другом случае текст запроса напрямую описывал содержание изображения, связанного с порнографией. Эти примеры показывают, как текст может выдавать информацию, содержащуюся в изображении, что создает ложное чувство безопасности в системах, которые не учитывают визуальную информацию.

Стратегии исправления VSIL

Текстовая настройка

Предыдущие исследования показали, что текстовая настройка (SFT) может достигать сопоставимых результатов безопасности с многомодальной настройкой, несмотря на то, что она использует только текстовые данные. Это противоречие объясняется тем, что существующие наборы данных для многомодальной безопасности часто страдают от VSIL. В результате, простая текстовая SFT может давать высокие показатели безопасности, даже когда визуальная информация не учитывается.

Мультимодальная настройка

Несмотря на успехи текстовой настройки, в ситуациях без VSIL мультимодальная настройка оказывается более эффективной. Это подчеркивает необходимость разработки более сложных методов, которые могут учитывать как текстовые, так и визуальные данные для повышения общей безопасности моделей.

Создание VLSBench

Для решения проблемы VSIL был разработан новый бенчмарк — VLSBench. Он включает в себя 2400 пар изображений и текстов, которые специально отобраны для предотвращения визуальной утечки информации. Этот бенчмарк служит основой для оценки безопасности MLLMs без влияния VSIL.

Процесс создания VLSBench

Процесс создания VLSBench включает несколько этапов:

Генерация вредоносных текстовых запросов: Используются мощные языковые модели, такие как GPT-4o, для создания текстов, связанных с изображениями, которые могут содержать потенциальные угрозы.
Детоксикация запросов: После генерации вредоносных запросов они проходят через процесс детоксикации, в результате чего формируются нейтральные и безопасные текстовые запросы.
Итеративная генерация изображений: Используя Stable Diffusion, создаются изображения, соответствующие безопасным текстовым запросам.
Финальная фильтрация: Все пары изображений и текстов проходят финальную проверку на соответствие, чтобы убедиться, что они не содержат вредоносной информации.

Экспериментальные результаты

Эксперименты с VLSBench продемонстрировали, что текущие MLLMs, как открытого, так и закрытого кода, сталкиваются с трудностями при оценке безопасности на этом новом бенчмарке. Модели, такие как LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o, показали заметное снижение результатов по сравнению с традиционными наборами данных безопасности, что подтверждает сложность VLSBench.

Сравнение методов настройки

Результаты экспериментов показали, что текстовая SFT может достигать более 95% уровня безопасности в условиях VSIL, однако в условиях без VSIL мультимодальная настройка демонстрирует лучшие результаты. Это подчеркивает важность дальнейшего изучения и разработки методов, которые могут эффективно сочетать текстовые и визуальные данные для достижения более высокой безопасности.

Заключение

Работа над VLSBench выявила важные проблемы, связанные с визуальной утечкой информации в многомодальных системах. Создание нового бенчмарка и его применение для оценки безопасности MLLMs открывает новые горизонты для исследований в области безопасности AI. Важно, чтобы будущие разработки моделей учитывали как текстовые, так и визуальные данные, чтобы избежать проблем, связанных с VSIL, и улучшить общую безопасность моделей.

Статья на arxiv Оригинал pdf learning multimodal benchmark

Ай Дайджест