Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "ocr"

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

llmsocrvlms

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

M3D,OC,RAG: Революция в понимании документов с помощью многомодальных технологий

Визуальное ответное действие на вопросы из документов (DocVQA) обладает широкими возможностями применения. Существующие методы сосредоточены на обработке одностраничных документов с использованием мультимодальных языковых моделей (MLMs) или опираются на генерацию с улучшением через извлечение текста (RAG), которая использует инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако, существуют сложности в применении этих методов в реальных сценариях: (а) вопросы часто требуют информации из разных страниц или документов, где MLMs не могут обрабатывать множество длинных документов; (б) документы часто содержат важную информацию в визуальных элементах, таких как диаграммы, но инструменты извлечения текста их игнорируют. Мы представляем M3DocRAG, новую мультимодальную RAG-фреймворк, который гибко адаптируется к различным контекстам документов (закрытый и открытый домен), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, график, изображение и т.д.). M3DocRAG находит соответствующие документы и отвечает на вопросы, используя мультимодальный извлекатель и MLM, что позволяет эффективно обрабатывать один или множество документов, сохраняя при этом визуальную информацию. Поскольку предыдущие наборы данных DocVQA задавали вопросы в контексте конкретного документа, мы также представляем M3DocVQA, новый бенчмарк для оценки DocVQA в открытом домене с более чем 3000 PDF-документов и 40000+ страниц. В трех бенчмарках (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG с ColPali и Qwen2-VL 7B демонстрирует превосходные результаты по сравнению с многими сильными базовыми моделями, включая рекордные результаты в MP-DocVQA. Мы предоставляем всесторонний анализ различных индексов, MLMs и моделей извлечения. Наконец, мы качественно показываем, что M3DocRAG может успешно справляться с различными сценариями, например, когда соответствующая информация распределена по нескольким страницам и когда доказательства ответа существуют только в изображениях.