Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В мире искусственного интеллекта мультимодальные крупные языковые модели (MLLMs) представляют собой значительный шаг вперед, объединяя обработку текста и других модальностей, таких как изображения и видео, для создания более интегрированных и мощных систем. Эти модели способны решать задачи, выходящие за рамки простого текстового анализа, включая создание кода по схемам, написание историй на основе изображений и многое другое. Оценка таких моделей является критически важной, поскольку она позволяет понять их сильные и слабые стороны, направляя дальнейшее развитие и улучшение.

Архитектура и обучение MLLMs

Архитектура

Типичная архитектура MLLM включает три основных модуля:

Модуль кодировки модальности для извлечения признаков из различных модальностей (например, изображений).
Крупная языковая модель (LLM) для обработки и генерации текста.
Соединительный модуль для выравнивания признаков различных модальностей в единое пространство.

Обучение

Процесс обучения MLLM состоит из трех этапов:

Предобучение: С помощью пар текст-изображение модели обучаются выравнивать различные модальности и вводить в них знания о мире.
Настройка на инструкции: Модели учатся следовать инструкциям пользователя, что позволяет им выполнять новые задачи без дополнительного обучения.
Настройка на согласование: Модели адаптируются к предпочтениям человека, уменьшая количество галлюцинаций и улучшая качество ответов.

Категории бенчмарков для оценки MLLMs

Основные способности

Комплексная оценка

Ранние бенчмарки, такие как VQA v2 и VizWiz, сосредотачивались на оценке способности моделей отвечать на вопросы об изображениях. Более новые бенчмарки, такие как MME и MMBench, расширяют оценку на более сложные задачи, включая рассуждения и понимание контекста.

Оптическое распознавание символов (OCR)

Бенчмарки, такие как TextVQA и OCR-VQA, оценивают способность моделей распознавать текст в изображениях, что важно для приложений, требующих понимания документов или знаков.

Диаграммы и документы

Бенчмарки, такие как ChartQA и DocVQA, оценивают способность моделей интерпретировать и отвечать на вопросы о диаграммах и документах, что критично для анализа данных и научной работы.

Математические рассуждения

Бенчмарки, такие как MathVista и OlympiadBench, проверяют способность моделей решать математические задачи с использованием визуальной информации.

Мультидисциплинарные знания

Бенчмарки, такие как ScienceQA и MMMU, оценивают модели по их способности отвечать на вопросы из различных научных дисциплин, требуя интеграции знаний и рассуждений.

Многоязычность

Бенчмарки, такие как CMMMU и MTVQA, оценивают модели на способность работать с текстами и изображениями на различных языках, что важно для глобального использования.

Следование инструкциям

Бенчмарки, такие как MIA-Bench, оценивают, насколько хорошо модели могут следовать сложным инструкциям, что является ключевым для пользовательского опыта.

Многораундовые вопросы и ответы

Бенчмарки, такие как ConvBench и MMDU, оценивают модели на способность вести диалог с пользователем через несколько раундов взаимодействия.

Понимание нескольких изображений

Бенчмарки, такие как NLVR2 и SparklesEval, оценивают способность моделей понимать и анализировать контекст, представленный несколькими изображениями.

Перемежающиеся изображения и текст

Бенчмарки, такие как MMMU и VEGA, оценивают модели на способность обрабатывать информацию, представленную в виде перемежающихся текстов и изображений.

Высокое разрешение

Бенчмарки, такие как V*Bench и MME-RealWorld, оценивают модели на способность обрабатывать изображения высокого разрешения, что важно для приложений, таких как автономное вождение.

Визуальное обоснование

Бенчмарки, такие как RefCOCO и Ref-L4, оценивают способность моделей локализовать объекты в изображениях по текстовым описаниям.

Тонкое восприятие

Бенчмарки, такие как FOCI и MMVP, оценивают способность моделей распознавать тонкие детали и атрибуты объектов на изображениях.

Понимание видео

Бенчмарки, такие как Video-MME и MVBench, оценивают модели на способность понимать и анализировать видео контент, что важно для приложений, связанных с видеоаналитикой.

Анализ модели

Галлюцинации

Бенчмарки, такие как POPE и M-HalDetect, оценивают модели на предмет их склонности к галлюцинациям, то есть генерации ответов, не соответствующих визуальному контенту.

Смещение

Бенчмарки, такие как VLBiasBench, исследуют предвзятость моделей, включая социальные, региональные и фактические смещения.

Безопасность

Бенчмарки, такие как VLLM-safety-bench и MultiTrust, оценивают модели на устойчивость к внешним атакам и способность избегать нежелательных ответов.

Причинно-следственные связи

Бенчмарки, такие как CELLO, оценивают способность моделей понимать причинно-следственные связи между событиями.

Расширенные приложения

Медицинские изображения

Бенчмарки, такие как VQA-RAD и PathVQA, оценивают модели на способность интерпретировать медицинские изображения и отвечать на связанные с ними вопросы.

Анализ эмоций

Бенчмарки, такие как EmoBench, оценивают модели на способность распознавать и анализировать эмоции на изображениях.

Дистанционное зондирование

Бенчмарки, такие как RSVQA и RSIVQA, оценивают модели на способность анализировать и отвечать на вопросы о данных дистанционного зондирования.

Агенты

Бенчмарки, такие как AppAgent и Mobile-Eval, оценивают модели на способность выполнять задачи в реальном мире, например, взаимодействовать с мобильными приложениями.

Генерация кода

Бенчмарки, такие как ChartMimic и Web2Code, оценивают модели на способность генерировать код на основе визуальных данных.

Графический интерфейс пользователя (GUI)

Бенчмарки, такие как RefExp и Screen2Words, оценивают модели на способность понимать и взаимодействовать с элементами графического интерфейса.

Переносимость

Бенчмарки, такие как VLAA и BenchLMM, оценивают модели на способность адаптироваться к новым задачам и контекстам.

Редактирование знаний

Бенчмарки, такие как MMEdit и VLKEB, оценивают модели на способность корректировать и обновлять свои знания.

Эмбодированный ИИ

Бенчмарки, такие как EQA и Ego4D, оценивают модели на способность понимать и взаимодействовать с физическим миром через визуальные данные.

Автономное вождение

Бенчмарки, такие как BDD-X и HAD, оценивают модели на способность понимать и реагировать на дорожные ситуации.

Заключение

Оценка MLLMs является сложной, но необходимой задачей, которая требует разработки специализированных бенчмарков и методологий. Эти бенчмарки не только помогают выявить текущие возможности моделей, но и указывают на направления для их дальнейшего развития, обеспечивая их применимость в реальных сценариях использования.

Статья на arxiv Оригинал pdf evaluation mllm benchmark

Ай Дайджест