HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

В последние годы технологии обработки естественного языка (NLP) значительно продвинулись вперед, особенно благодаря развитию больших языковых моделей (LLM). Эти модели, такие как LLaMA, Grok, и другие, демонстрируют впечатляющие способности в различных задачах, включая генерацию текста, перевод, суммаризацию и ответы на вопросы. Однако, несмотря на свои преимущества, LLM сталкиваются с несколькими проблемами, такими как забывание редко используемой информации, предоставление устаревших данных и галлюцинации (генерация неверной информации).

Retrieval-Augmented Generation (RAG) — это метод, который использует внешние источники знаний для улучшения качества ответов LLM. В традиционных RAG-системах, таких как ChatGPT и Perplexity, для извлечения знаний используются веб-поисковые системы. После извлечения, HTML-страницы преобразуются в простой текст, который затем подается на вход LLM для генерации ответов. Однако при этом теряется значительная часть структурной и семантической информации, содержащейся в HTML-документах.

В этом контексте мы предлагаем HtmlRAG — подход, который использует HTML напрямую вместо простого текста для моделирования извлеченных знаний. Этот метод сохраняет богатую структуру и семантику HTML, что может улучшить понимание контекста и качество ответов LLM.

Проблемы и Решения

Потеря информации при преобразовании HTML в текст

Когда HTML преобразуется в простой текст, теряются важные элементы, такие как заголовки, таблицы и ссылки, которые могут быть критически важны для понимания контента. Например, таблица в HTML может быть представлена в виде беспорядочного текста, что затрудняет анализ и извлечение информации.

Преимущества использования HTML

Сохранение структуры и семантики: HTML содержит множество тегов, которые указывают на структуру документа, что может помочь LLM лучше понимать контекст.
Поддержка LLM: Современные LLM, такие как те, что используются в HtmlRAG, обучены на больших объемах данных, включая HTML, что означает, что они уже имеют способность понимать HTML без дополнительной настройки.
Длинные входные окна: С увеличением способности LLM обрабатывать длинные входные последовательности, становится возможным использовать более объемные HTML-документы.

Вызовы при использовании HTML

Однако, использование HTML в качестве формата знаний представляет несколько вызовов:

Длинные входные последовательности: HTML-документы часто содержат много лишнего кода (CSS, JavaScript), что увеличивает длину входных данных, что может быть проблематично для LLM с ограниченным контекстным окном.
Шум в контексте: HTML содержит много несущественной информации, которая может затруднить генерацию релевантных ответов.

Методология HtmlRAG

Очистка HTML

Для решения проблем с длиной и шумом мы предлагаем следующие шаги:

Удаление CSS, комментариев и JavaScript: Эти элементы не несут семантической информации и могут быть удалены без потери смысла.
Сжатие структуры: Упрощение структуры HTML путем слияния одноуровневых тегов и удаления пустых тегов.

Построение дерева блоков

Вместо работы с DOM-деревом, которое слишком детализировано, мы предлагаем построить дерево блоков, где каждый блок может содержать несколько узлов DOM, но не превышает заданное количество слов. Это позволяет эффективно управлять гранулярностью обработки HTML.

Обрезка HTML

Для сокращения объема HTML и удаления несущественной информации:

Обрезка на основе текстового встраивания: Используем модель встраивания для оценки релевантности блоков к запросу пользователя. Блоки с низкой релевантностью удаляются.
Генеративная тонкая обрезка: После первичной обрезки, используем генеративную модель для более точной обрезки на уровне более мелких блоков, учитывая глобальный контекст документа.

Эксперименты

Мы провели эксперименты на шести наборах данных для вопросно-ответных систем, включая ASQA, HotpotQA, NQ, Trivia-QA, MuSiQue и ELI5. Результаты показывают, что HtmlRAG превосходит базовые методы по большинству метрик, подтверждая эффективность использования HTML вместо простого текста.

Результаты

ASQA: HtmlRAG показал значительное улучшение точности по сравнению с базовыми методами.
HotpotQA: Улучшение точности и полноты ответов.
NQ и Trivia-QA: Высокая точность и способность находить правильные ответы.
MuSiQue: Улучшение в многоконтурных вопросах.
ELI5: Лучшее качество длинных ответов.

Заключение

HtmlRAG предлагает новый подход к использованию HTML в качестве формата знаний в RAG-системах, что позволяет сохранить и использовать богатую структурную и семантическую информацию, улучшая качество ответов LLM. Этот метод открывает новые направления исследований в области обработки естественного языка и демонстрирует потенциал HTML как эффективного формата для моделирования внешних знаний.

Статья на arxiv Оригинал pdf retrieval html llms

Ай Дайджест