Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Мультимодальные модели большого языка (MLLMs) представляют собой новый класс систем искусственного интеллекта, которые могут обрабатывать и генерировать данные из различных источников, таких как текст, изображения, аудио и видео. Эти модели демонстрируют впечатляющие результаты на различных бенчмарках, часто превосходя даже человеческие способности. Однако, с ростом их популярности и использования, возникает проблема загрязнения данных, что может привести к несправедливым сравнениям и оценкам производительности моделей.

Загрязнение данных в контексте MLLM может происходить на различных этапах обучения модели, начиная от предобучения на текстовых данных до мультимодального обучения, где модель учится соотносить текст с другими типами данных. Это явление может существенно повлиять на способность модели обобщать знания и приводить к завышенным результатам на тестовых наборах данных, если модель уже видела эти данные во время обучения.

В данной статье мы рассмотрим систематический анализ загрязнения данных в MLLMs, введем концепцию мультимодального загрязнения данных, обсудим методы его обнаружения и представим новый фреймворк для детекции загрязнения данных, названный MM-Detect.

Определение мультимодального загрязнения данных

Мультимодальное загрязнение данных можно разделить на два основных типа:

Унисенсорное загрязнение - когда текстовые данные из бенчмарка уже были представлены модели во время предобучения или в процессе обучения на текстовых данных.
Кросс-сенсорное загрязнение - когда модель была обучена на данных, включающих как текст, так и другие модальности (например, изображения), которые также присутствуют в тестовом наборе данных.

Унисенсорное загрязнение

Этот тип загрязнения возникает, когда текстовые компоненты вопросов или ответов из бенчмарка уже встречались модели во время предобучения. Например, если модель обучалась на огромных текстовых корпусах, в которых содержатся вопросы из бенчмарка, она может просто воспроизводить запомненные ответы, а не обобщать новые знания.

Кросс-сенсорное загрязнение

Кросс-сенсорное загрязнение происходит, когда модель обучается на данных, которые включают в себя как текст, так и соответствующие изображения, аудио или видео, которые затем используются в тестовом наборе данных. Это может привести к тому, что модель будет "узнавать" тестовые примеры, а не действительно анализировать их.

Методы обнаружения загрязнения данных

Для обнаружения загрязнения данных в MLLMs существует несколько методов, но они часто сталкиваются с ограничениями, особенно в мультимодальной среде:

Методы на основе логитов

Эти методы анализируют распределение вероятностей токенов в выходных данных модели. Однако, из-за специфики инструкционного обучения в MLLMs, распределение вероятностей токенов может быть менее информативным, чем в традиционных моделях большого языка.

Методы на основе маскирования

Маскирование предполагает удаление части текста и оценку способности модели восстановить его. В мультимодальных данных, изображения могут предоставлять подсказки, что делает методы маскирования менее эффективными для обнаружения загрязнения.

Методы сравнения

Эти методы сравнивают выходные данные модели с эталонными данными бенчмарка. Однако, из-за разнообразия и сложности мультимодальных данных, такие сравнения могут быть неэффективны, так как выходные данные модели могут значительно отличаться от эталонных из-за различий в интерпретации или генерации данных.

Представление MM-Detect

Чтобы преодолеть ограничения существующих методов, мы разработали фреймворк MM-Detect, специально предназначенный для обнаружения загрязнения данных в MLLMs. Этот фреймворк включает:

Тест чувствительности к порядку вариантов (Option Order Sensitivity Test)

Этот тест основан на предположении, что если модель чрезмерно чувствительна к порядку вариантов ответа, это может указывать на то, что она запомнила определённый канонический порядок вариантов, что может быть признаком загрязнения. Метод включает в себя случайное перемешивание вариантов ответа и оценку изменения производительности модели.

Метод предсказания пропущенных слов (Slot Guessing for Perturbation Caption)

Этот метод предполагает, что если модель может предсказать пропущенное слово в предложении, но не справляется с обратным переводом этого же предложения, это может указывать на то, что модель уже видела оригинальное предложение во время обучения. Метод включает в себя обратный перевод предложения, извлечение ключевых слов, маскирование этих слов и оценку способности модели предсказать их.

Метрики обнаружения

MM-Detect использует несколько метрик для оценки степени загрязнения:

Корректность (CR) и Пертурбированная корректность (PCR): измеряют производительность модели до и после внесения изменений в данные.
Δ: разница между PCR и CR, указывающая на степень загрязнения.
IL: индикатор утечки на уровне экземпляров, показывающий, сколько экземпляров из бенчмарка модель могла видеть во время обучения.

Экспериментальные результаты

Наши эксперименты с MM-Detect показали, что как открытые, так и проприетарные MLLMs демонстрируют различные степени загрязнения данных. Мы обнаружили, что:

Загрязнение данных может происходить как на этапе предобучения модели, так и на этапе мультимодального обучения.
Модели, которые показывают значительное улучшение производительности на тестовых наборах после загрязнения, вероятно, столкнулись с утечкой данных.
MM-Detect эффективно выявляет различные степени загрязнения, что подтверждается экспериментами с намеренным введением загрязнения.

Заключение и будущие направления

MM-Detect представляет собой значительный шаг вперед в области обнаружения загрязнения данных в MLLMs. Наши исследования показывают, что загрязнение данных - это серьёзная проблема, которая может влиять на справедливость сравнений и оценок производительности моделей. В будущем мы планируем:

Стандартизировать использование мультимодальных наборов данных и отчётность о потенциальном влиянии загрязнения данных.
Разработать систему непрерывного обновления бенчмарков для оценки производительности мультимодальных моделей.

Таким образом, MM-Detect не только помогает выявить загрязнение данных, но и способствует улучшению качества и честности исследований в области искусственного интеллекта.

Статья на arxiv Оригинал pdf performance detection benchmarks

Ай Дайджест