M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

В мире научных исследований, где каждый документ может быть ключом к новым открытиям, понимание и анализ научных публикаций становится критически важным. Однако, существующие бенчмарки для оценки фундаментальных моделей (foundation models) часто ограничены задачами, связанными с обработкой только текстовой информации в рамках одного документа. Это не отражает реальность научной работы, где исследователи часто сталкиваются с необходимостью анализа множества документов и интерпретации не только текстов, но и графиков, таблиц и других визуальных элементов. В ответ на этот разрыв между реальными научными рабочими процессами и текущими методиками оценки, мы представляем M3S,CI,QA — бенчмарк для оценки способностей фундаментальных моделей в контексте научной литературы, который учитывает мультимодальные и мультидокументные аспекты.

Научные исследования требуют глубокого понимания и интеграции информации из различных источников. Исследователи часто изучают не только основную статью, но и все цитируемые ею работы, чтобы получить более полный контекст. При этом, статьи часто содержат не только текст, но и важные визуальные элементы, такие как графики и таблицы, которые могут предоставить дополнительные инсайты. Эти особенности научной литературы представляют значительные вызовы для систем искусственного интеллекта (AI), которые должны точно интерпретировать и интегрировать различные форматы данных из множества документов.

Недавние исследования продемонстрировали впечатляющие результаты фундаментальных моделей в различных задачах понимания научной литературы, включая суммаризацию, ответы на вопросы на основе документов и анализ научных изображений. Однако, большинство из этих исследований ограничены анализом одного документа или только текстовой информации, игнорируя мультимодальную и мультидокументную природу научных исследований.

M3S,CI,QA: Бенчмарк для мультимодального и мультидокументного анализа

M3S,CI,QA (Multi-Modal, Multi-document Scientific Question Answering) — это новый бенчмарк, разработанный для более комплексной оценки фундаментальных моделей. Он включает 1452 вопроса, аннотированных экспертами, охватывающие 70 кластеров статей по обработке естественного языка (NLP), где каждый кластер представляет собой основную статью и все её цитируемые документы. Это отражает процесс понимания одной статьи, требуя от моделей мультимодального и мультидокументного анализа.

Конструкция бенчмарка

Бенчмарк M3S,CI,QA построен на основе следующих принципов:

Мультимодальность: Включает разнообразные модальности, такие как тексты, графики (включая линейные графики, столбчатые графики, диаграммы рассеяния и т.д.) и таблицы, которые сохраняются в виде изображений для сохранения их формата.
Мультидокументный контекст: Требует связывания информации через несколько документов.
Разнообразие типов рассуждений: Охватывает различные типы рассуждений, включая четыре типа визуального контекста и пять типов рассуждений на основе ссылок.
Вызовы для моделей: Ставит значительные задачи в области мультимодального понимания и извлечения информации из нескольких документов.
Реалистичность: Генерирует реалистичные пары вопрос-ответ, отражающие рабочие процессы анализа научной литературы.

Экспертная аннотация

Для создания M3S,CI,QA были привлечены три аспиранта по компьютерным наукам с опытом в области NLP, каждый из которых опубликовал как минимум одну статью в ведущих NLP-конференциях. Их задачи включали:

Выбор основных статей и создание вопросов на основе визуального контекста.
Проверка и верификация типов рассуждений для вопросов, основанных на ссылках.
Решение несоответствий между ответами, сгенерированными в двух раундах.
Проверка согласованности, ясности и избыточности в комбинированных вопросах.

Паперы и вопросы

Основные статьи для бенчмарка были отобраны из недавней конференции по NLP, EMNLP 2023, чтобы минимизировать риск заражения данных, когда модели могли бы использовать предобученные знания для ответов на вопросы, а не анализировать предоставленные научные изображения.

Эксперименты

Мы оценили 18 фундаментальных моделей, включая как открытые, так и проприетарные LMMs (Large Multi-modal Models) и LLMs (Large Language Models). Эксперименты были разделены на две стадии:

Оценка визуального контекста

Задача формулировалась следующим образом: дан вопрос на основе визуального контекста, соответствующее научное изображение и список ссылочных документов, целью было определить ранжирование этих документов по их релевантности к вопросу и изображению. Использовались различные модели, включая LLaVA, InternVL-Chat, Yi-VL, DeepSeek-VL, Qwen-VL-Plus, и проприетарные модели, такие как GPT-4V(ision), GPT-4o, Claude 3 и Gemini Vision Pro.

Оценка на основе ссылок

На этой стадии мы оценивали, как модели справляются с вопросами, основанными на ссылках, используя топ-3 документов, определенных на предыдущей стадии. Мы использовали метрики, такие как ROUGE, BERTScore, и AutoACU для оценки качества ответов.

Основные результаты

Находка 1: Задачи визуального рассуждения и ранжирования документов по-прежнему представляют значительные вызовы для моделей. Даже лучшая модель, GPT-4o, показала значительное отставание от человеческих экспертов.

Находка 2: Открытые LMMs сталкиваются с фундаментальными ограничениями в задачах долгосрочного ранжирования, включая ограниченные контекстные окна, галлюцинации и проблемы с форматированием.

Находка 3: Баланс между точностью и полнотой в извлечении информации из документов. Производительность моделей обычно улучшается при рассмотрении до трех документов, после чего вводится слишком много шума.

Находка 4: Соблюдение инструкций для моделей в задачах извлечения информации. Модели, которые не следуют инструкциям, часто дают ответы, основанные на предобученных знаниях, а не на предоставленной информации.

Заключение

M3S,CI,QA представляет собой важный шаг вперед в оценке способностей фундаментальных моделей в контексте научной литературы. Он подчеркивает необходимость развития моделей, способных эффективно обрабатывать мультимодальные и мультидокументные данные, что является ключевым для будущих достижений в области научных исследований и анализа данных.

Статья на arxiv Оригинал pdf benchmark models multi-modal

Ай Дайджест