VLSBench: Понимание визуальных утечек в многомодальной безопасности
Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench