SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

В эпоху цифровых технологий огромные объемы финансовой информации, содержащиеся в документах, таких как бухгалтерские отчеты, требуют эффективных методов извлечения для раскрытия их ценности. Среди различных элементов, встроенных в текстовый контент, таблицы играют ключевую роль в представлении структурированной финансовой информации. Однако извлечение этих таблиц из неструктурированных изображений документов представляет собой многогранную задачу, которая пересекается с компьютерным зрением, машинным обучением и информационным поиском.

Таблицы являются важными репозиториями структурированной информации, однако их извлечение из изображений документов связано с множеством сложностей. Изображения документов, будь то отсканированные, сделанные на камеру или преобразованные из других форматов, имеют множество особенностей. Таблицы в этих документах могут сильно различаться по формату, стилю и компоновке, часто представляя собой нерегулярности, такие как объединенные ячейки, разнообразные шрифты и сложные границы. Для точного извлечения этих таблиц необходимы сложные алгоритмы, способные распознавать шаблоны среди этой внутренней изменчивости.

Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за большого количества доступных академических статей и их исходного кода. Однако таблицы в научных и финансовых доменах имеют значительные различия в компоновке и типографике. Это приводит к тому, что многие текущие наборы данных не содержат точных данных о словах и их позициях в таблицах, полагаясь на ненадежное оптическое распознавание символов (OCR) для извлечения этих характеристик для обучения современных моделей машинного обучения.

Чтобы решить эту проблему, была предложена новая большая база данных под названием SynFinTabs (Synthetic Financial Tables). Этот набор данных включает в себя 100,000 синтетических финансовых таблиц и нацелен на решение проблемы нехватки аннотированных данных для задач извлечения информации из таблиц.

SynFinTabs: Описание и характеристики

Структура набора данных

SynFinTabs был создан с использованием метода, который позволяет точно знать структуру и содержание каждой таблицы на момент ее создания. Это позволяет аннотировать каждое слово, ячейку и строку с соответствующим ограничивающим прямоугольником на изображении. В отличие от других наборов данных, таких как FinTabNet, аннотации SynFinTabs точно представляют полную пространственно значимую ячейку.

Каждая таблица в SynFinTabs аннотирована с указанием семантической роли ячейки, такой как "заголовок секции", "валюта", "заголовок строки", "заголовок столбца" и "данные". Набор данных разделен на шесть тем, из которых 40% составляют таблицы, найденные в финансовых отчетах, поданных в Companies House, а оставшиеся 60% равномерно распределены по другим темам.

Процесс генерации

Процесс генерации таблиц включает создание спецификации таблицы, которая служит чертежом для создаваемой таблицы. Эта спецификация определяет количество секций, количество столбцов, тему, шрифт и другие стилистические свойства. Затем создается HTML-документ, который содержит элемент таблицы, представляющий объект таблицы. В процессе конвертации HTML каждому элементу присваивается уникальный идентификатор, соответствующий его положению в таблице. Это позволяет точно извлекать позиции ячеек и слов, что является важным для обучения моделей машинного обучения.

Применение SynFinTabs

Набор данных SynFinTabs может быть использован для обучения моделей машинного обучения для различных задач извлечения информации из таблиц. Аннотации структуры позволяют использовать набор данных для обучения моделей на задачах распознавания структуры таблиц, а аннотации на уровне слов позволяют обучать модели на задачах обработки естественного языка, таких как визуальный вопрос-ответ по таблицам.

Эксперименты с FinTabQA

Для демонстрации эффективности набора данных SynFinTabs была разработана модель под названием FinTabQA, которая была дообучена на задаче извлечения ответов на вопросы. Модель принимает слова таблицы и ограничивающие прямоугольники слов в качестве контекста, а также естественный язык вопроса о значении в таблице. Модель затем задается задачей извлечения ответа на вопрос из контекста, предсказывая начальную и конечную позиции ответного фрагмента в контексте.

Тестирование модели

Для тестирования модели FinTabQA был создан небольшой тестовый набор реальных таблиц, из которых 50 таблиц были случайным образом выбраны из финансовых отчетов. Каждая таблица была вручную аннотирована двумя вопросами-ответами, что позволило создать набор из 100 вопросов о изображениях таблиц. Результаты тестирования показали, что модель FinTabQA эффективно извлекает информацию из реальных таблиц.

Влияние OCR на производительность

Одной из ключевых проблем, с которой столкнулись исследователи, является зависимость от OCR для извлечения слов и их позиционирования. Для оценки влияния OCR на производительность модели были проведены эксперименты с использованием как аннотированных данных, так и данных, полученных с помощью OCR. Результаты показали, что многие ошибки, возникающие при использовании выходных данных OCR, были связаны с несовершенством этого шага.

Заключение

Введение SynFinTabs как набора данных для извлечения информации из финансовых таблиц представляет собой значительный шаг вперед в области машинного обучения и обработки документов. Он предоставляет исследователям и разработчикам возможность обучать и тестировать модели на высококачественных аннотированных данных, что в свою очередь может привести к улучшению методов извлечения информации в финансовом домене и за его пределами.

Разработка модели FinTabQA и ее тестирование на реальных данных показали, что SynFinTabs может эффективно использоваться для решения задач извлечения информации из таблиц. Дальнейшие исследования могут сосредоточиться на улучшении методов OCR и расширении возможностей наборов данных для повышения их универсальности и применения в различных областях.

Статья на arxiv Оригинал pdf dataset ocr training

Ай Дайджест