Ай Дайджест - категория html

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

2024-11-06llms pruning retrieval