Ай Дайджест - категория rag

OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.

2024-12-18evaluation benchmark rag

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

2024-12-04rag llms noise

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

2024-11-19qa llms evaluation

M3D,OC,RAG: Революция в понимании документов с помощью многомодальных технологий

Визуальное ответное действие на вопросы из документов (DocVQA) обладает широкими возможностями применения. Существующие методы сосредоточены на обработке одностраничных документов с использованием мультимодальных языковых моделей (MLMs) или опираются на генерацию с улучшением через извлечение текста (RAG), которая использует инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако, существуют сложности в применении этих методов в реальных сценариях: (а) вопросы часто требуют информации из разных страниц или документов, где MLMs не могут обрабатывать множество длинных документов; (б) документы часто содержат важную информацию в визуальных элементах, таких как диаграммы, но инструменты извлечения текста их игнорируют. Мы представляем M3DocRAG, новую мультимодальную RAG-фреймворк, который гибко адаптируется к различным контекстам документов (закрытый и открытый домен), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, график, изображение и т.д.). M3DocRAG находит соответствующие документы и отвечает на вопросы, используя мультимодальный извлекатель и MLM, что позволяет эффективно обрабатывать один или множество документов, сохраняя при этом визуальную информацию. Поскольку предыдущие наборы данных DocVQA задавали вопросы в контексте конкретного документа, мы также представляем M3DocVQA, новый бенчмарк для оценки DocVQA в открытом домене с более чем 3000 PDF-документов и 40000+ страниц. В трех бенчмарках (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG с ColPali и Qwen2-VL 7B демонстрирует превосходные результаты по сравнению с многими сильными базовыми моделями, включая рекордные результаты в MP-DocVQA. Мы предоставляем всесторонний анализ различных индексов, MLMs и моделей извлечения. Наконец, мы качественно показываем, что M3DocRAG может успешно справляться с различными сценариями, например, когда соответствующая информация распределена по нескольким страницам и когда доказательства ответа существуют только в изображениях.

2024-11-08mlms benchmark ocr

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

2024-11-06rag retrieval fine-tuning

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

2024-11-06generation pruning llms