Свежая выжимка ml и AI статей - каждый день
Мультимодальные модели большого языка (MLLMs) представляют собой новый класс систем искусственного интеллекта, которые могут обрабатывать и генерировать данные из различных источников, таких как текст, изображения, аудио и видео. Эти модели демонстрируют впечатляющие результаты на различных бенчмарках, часто превосходя даже человеческие способности. Однако, с ростом их популярности и использования, возникает проблема загрязнения данных, что может привести к несправедливым сравнениям и оценкам производительности моделей.
Загрязнение данных в контексте MLLM может происходить на различных этапах обучения модели, начиная от предобучения на текстовых данных до мультимодального обучения, где модель учится соотносить текст с другими типами данных. Это явление может существенно повлиять на способность модели обобщать знания и приводить к завышенным результатам на тестовых наборах данных, если модель уже видела эти данные во время обучения.
В данной статье мы рассмотрим систематический анализ загрязнения данных в MLLMs, введем концепцию мультимодального загрязнения данных, обсудим методы его обнаружения и представим новый фреймворк для детекции загрязнения данных, названный MM-Detect.
Мультимодальное загрязнение данных можно разделить на два основных типа:
Унисенсорное загрязнение - когда текстовые данные из бенчмарка уже были представлены модели во время предобучения или в процессе обучения на текстовых данных.
Кросс-сенсорное загрязнение - когда модель была обучена на данных, включающих как текст, так и другие модальности (например, изображения), которые также присутствуют в тестовом наборе данных.
Этот тип загрязнения возникает, когда текстовые компоненты вопросов или ответов из бенчмарка уже встречались модели во время предобучения. Например, если модель обучалась на огромных текстовых корпусах, в которых содержатся вопросы из бенчмарка, она может просто воспроизводить запомненные ответы, а не обобщать новые знания.
Кросс-сенсорное загрязнение происходит, когда модель обучается на данных, которые включают в себя как текст, так и соответствующие изображения, аудио или видео, которые затем используются в тестовом наборе данных. Это может привести к тому, что модель будет "узнавать" тестовые примеры, а не действительно анализировать их.
Для обнаружения загрязнения данных в MLLMs существует несколько методов, но они часто сталкиваются с ограничениями, особенно в мультимодальной среде:
Эти методы анализируют распределение вероятностей токенов в выходных данных модели. Однако, из-за специфики инструкционного обучения в MLLMs, распределение вероятностей токенов может быть менее информативным, чем в традиционных моделях большого языка.
Маскирование предполагает удаление части текста и оценку способности модели восстановить его. В мультимодальных данных, изображения могут предоставлять подсказки, что делает методы маскирования менее эффективными для обнаружения загрязнения.
Эти методы сравнивают выходные данные модели с эталонными данными бенчмарка. Однако, из-за разнообразия и сложности мультимодальных данных, такие сравнения могут быть неэффективны, так как выходные данные модели могут значительно отличаться от эталонных из-за различий в интерпретации или генерации данных.
Чтобы преодолеть ограничения существующих методов, мы разработали фреймворк MM-Detect, специально предназначенный для обнаружения загрязнения данных в MLLMs. Этот фреймворк включает:
Этот тест основан на предположении, что если модель чрезмерно чувствительна к порядку вариантов ответа, это может указывать на то, что она запомнила определённый канонический порядок вариантов, что может быть признаком загрязнения. Метод включает в себя случайное перемешивание вариантов ответа и оценку изменения производительности модели.
Этот метод предполагает, что если модель может предсказать пропущенное слово в предложении, но не справляется с обратным переводом этого же предложения, это может указывать на то, что модель уже видела оригинальное предложение во время обучения. Метод включает в себя обратный перевод предложения, извлечение ключевых слов, маскирование этих слов и оценку способности модели предсказать их.
MM-Detect использует несколько метрик для оценки степени загрязнения:
Наши эксперименты с MM-Detect показали, что как открытые, так и проприетарные MLLMs демонстрируют различные степени загрязнения данных. Мы обнаружили, что:
MM-Detect представляет собой значительный шаг вперед в области обнаружения загрязнения данных в MLLMs. Наши исследования показывают, что загрязнение данных - это серьёзная проблема, которая может влиять на справедливость сравнений и оценок производительности моделей. В будущем мы планируем:
Таким образом, MM-Detect не только помогает выявить загрязнение данных, но и способствует улучшению качества и честности исследований в области искусственного интеллекта.