RetroLLM: Объединение поиска и генерации для больших языковых моделей

Современные большие языковые модели (LLMs) демонстрируют впечатляющие способности к генерации текста, однако они часто сталкиваются с проблемами, связанными с "галлюцинациями" — генерированием неверной или несуществующей информации. Для решения этой проблемы появилась концепция генерации с поддержкой извлечения (RAG), которая позволяет моделям использовать внешние источники знаний для повышения точности и надежности своих ответов. Однако существующие методы RAG имеют свои ограничения, такие как необходимость в отдельном извлекателе, избыточные токены ввода и отсутствие совместной оптимизации извлечения и генерации.

В этой статье мы рассмотрим новый подход, предложенный в исследовании RetroLLM, который объединяет процессы извлечения и генерации в единую, согласованную систему. RetroLLM позволяет языковым моделям напрямую генерировать фактические доказательства из корпуса данных, минимизируя проблемы, связанные с избыточностью и неэффективностью извлечения.

Проблемы существующих методов RAG

Существующие методы RAG обычно зависят от отдельного извлекателя, который извлекает текстовые фрагменты из большого корпуса данных. Это приводит к нескольким проблемам:

Дополнительные затраты на развертывание: Поддержка отдельного извлекателя увеличивает общие затраты на систему.
Избыточные токены ввода: Извлеченные документы могут содержать избыточную информацию, что отвлекает внимание модели от ключевых данных.
Ограниченная гибкость: Фиксированная гранулярность и количество извлеченных текстовых фрагментов ограничивают возможности RAG-систем.
Отсутствие совместной оптимизации: Извлечение и генерация обычно обучаются отдельно, что снижает их общую эффективность.

RetroLLM: Объединенная система

RetroLLM предлагает решение этих проблем, предлагая интегрированную платформу, в которой извлечение и генерация происходят в рамках единого авто-регрессионного процесса. Это позволяет модели самостоятельно решать, сколько доказательств извлекать и когда генерировать окончательный ответ, что значительно повышает гибкость и эффективность системы.

Структура RetroLLM

Структура RetroLLM состоит из нескольких ключевых компонентов:

Иерархические ограничения FM-индекса: Эти ограничения помогают модели определить подмножество релевантных документов перед генерацией доказательств, минимизируя пространство неуместного декодирования.
Стратегия декодирования с учетом будущего: Эта стратегия позволяет модели учитывать релевантность будущих последовательностей, что улучшает точность генерируемых доказательств.

Процесс декодирования

Процесс декодирования в RetroLLM включает несколько этапов:

Генерация подсказок (clue generation): Модель генерирует ключевые фразы, которые могут помочь в извлечении релевантных документов.
Извлечение доказательств (evidence generation): На основе подсказок модель извлекает фактические доказательства из корпуса данных.
Генерация ответа (answer generation): На основе извлеченных доказательств модель формирует окончательный ответ на заданный вопрос.

Иерархические ограничения FM-индекса

FM-индекс (Full-text index in Minute space) — это эффективная структура данных, которая позволяет быстро извлекать подстроки из больших текстовых корпусов. RetroLLM использует иерархические FM-индексы, которые включают глобальный индекс для всего корпуса и локальные индексы для отдельных документов. Это позволяет модели быстро находить релевантные документы и минимизировать пространство для декодирования.

Генерация подсказок

На этапе генерации подсказок RetroLLM создает набор ключевых фраз, которые помогают определить релевантные документы. Эти подсказки формируются на основе запроса и глобального FM-индекса, что позволяет модели более точно нацеливаться на релевантные темы.

Генерация доказательств

На этапе генерации доказательств RetroLLM использует документальные FM-индексы для извлечения информации из ранее определенных релевантных документов. Это позволяет модели сосредоточиться на наиболее подходящих фрагментах текста, избегая ненужной информации.

Генерация ответа

После извлечения доказательств модель переходит к генерации окончательного ответа. Этот этап не подлежит ограничениям, что позволяет модели свободно формулировать ответ на основе собранной информации.

Преимущества RetroLLM

RetroLLM демонстрирует ряд преимуществ по сравнению с традиционными методами RAG:

Улучшенная точность: Объединение извлечения и генерации позволяет модели более точно формировать ответы, опираясь на релевантные данные.
Снижение избыточности: Модель генерирует только необходимую информацию, что минимизирует количество токенов и повышает эффективность.
Гибкость: RetroLLM может адаптироваться к различным задачам, включая как одноступенчатые, так и многоступенчатые вопросы.

Экспериментальные результаты

Эксперименты, проведенные на пяти открытых наборах данных для вопросов и ответов, показали превосходные результаты RetroLLM как в рамках задач в своем домене, так и вне его. RetroLLM значительно превзошел традиционные методы RAG и сложные стратегии RAG, что подтверждает его эффективность и универсальность.

Заключение

RetroLLM представляет собой значительный шаг вперед в области генерации с поддержкой извлечения, предлагая интегрированную платформу, которая объединяет извлечение и генерацию в единую систему. Это позволяет моделям более эффективно извлекать и генерировать фактические доказательства, что, в свою очередь, улучшает качество ответов. Несмотря на свои достижения, RetroLLM также сталкивается с некоторыми ограничениями, которые открывают новые возможности для будущих исследований, включая улучшение устойчивости и оптимизацию производительности.

RetroLLM не только решает текущие проблемы в области RAG, но и закладывает основу для дальнейших исследований и разработок в области больших языковых моделей и извлечения информации.

Статья на arxiv Оригинал pdf hallucinations generation retrieval

Ай Дайджест