Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать растущий массив научной литературы. Однако, с увеличением объема публикуемых работ, задача становится все более сложной. В этом контексте, крупные языковые модели (LLMs) предлагают новые возможности для автоматизации и ускорения процесса обзора литературы. В данной статье мы рассмотрим OpenScholar, новаторскую систему, использующую retrieval-augmented LMs для ответов на научные запросы, и ScholarBench, первый крупномасштабный мульти-доменный бенчмарк для оценки качества синтеза литературы.

OpenScholar: Система для синтеза научной литературы

Основные концепции

OpenScholar представляет собой специализированную систему, основанную на retrieval-augmented LMs, которая отвечает на научные запросы, идентифицируя соответствующие отрывки из 45 миллионов открытых научных статей и синтезируя ответы с цитатами. Система состоит из:

OpenScholar Datastore (OSDS): База данных, содержащая 45 миллионов научных работ с соответствующими эмбеддингами.
Retriever и Reranker: Модели, обученные для поиска и ранжирования наиболее релевантных документов.
LM (Language Model): Генератор ответов, который использует полученные отрывки для создания ответов с цитатами.

Процесс работы

Получение и ранжирование документов: При поступлении запроса, система использует retriever для поиска соответствующих документов в OSDS. Затем reranker уточняет выбор, определяя топ-N документов для дальнейшего анализа.
Генерация ответа: LM генерирует ответ, основываясь на отрывках из выбранных документов, включая цитаты для подтверждения утверждений.
Итеративное уточнение: OpenScholar использует итеративный процесс самопроверки и улучшения ответа, что позволяет повысить точность и полноту информации.

Обучение моделей

Для обучения OpenScholar используется синтетический подход:

Генерация синтетических данных: Система генерирует синтетические запросы и ответы на основе выборки из OSDS.
Фильтрация данных: Данные фильтруются для обеспечения качества и релевантности.
Обучение: Модели обучаются на этих данных, что позволяет им эффективно работать с научной литературой.

ScholarBench: Бенчмарк для оценки систем синтеза литературы

Состав бенчмарка

ScholarBench включает в себя:

2,967 экспертно написанных запросов и 208 длинных ответов по четырем научным дисциплинам: информатика, физика, нейронауки и биомедицина.
Задачи с разными форматами: от классификации и выбора ответа до длинного текста.

Метрики оценки

Для оценки систем используются:

Корректность (Correctness): Измеряет степень совпадения с эталонными ответами.
Точность цитирования (Citation Accuracy): Оценивает правильность и релевантность цитирований.
Качество контента и организация (Content Quality and Organization): Оценивает структуру и релевантность ответа.

Результаты

OpenScholar-8B показывает улучшение на 5% по корректности и на 7% по точности цитирования по сравнению с GPT-4o и PaperQA2. В человеческих оценках, эксперты предпочли ответы OpenScholar-8B и OpenScholar-GPT4o над экспертно написанными ответами в 51% и 70% случаев соответственно.

Заключение

OpenScholar и ScholarBench представляют собой значительный шаг вперед в области автоматизации научного обзора литературы. Система не только облегчает работу исследователей, но и предоставляет инструменты для более точного и эффективного синтеза научных данных. Открытие кода, моделей, базы данных и демо-версии способствует дальнейшему развитию и исследованию в этой области.

Эти инновации подчеркивают потенциал LLM в научном исследовании, предлагая новые способы работы с огромным объемом научной информации, делая процесс более доступным и эффективным для научного сообщества.

Статья на arxiv Оригинал pdf synthesis citation query

Ай Дайджест