Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

С появлением больших языковых моделей (LLM) наблюдается значительный прогресс в области обработки естественного языка (NLP), особенно в задачах генерации текста, таких как резюмирование и машинный перевод. Однако, несмотря на эти достижения, LLM продолжают генерировать контент, содержащий "галлюцинации" — факты, которые не имеют под собой реальной основы. Это создает необходимость в разработке методов для оценки фактической достоверности выводов, сделанных LLM. В данной статье мы рассмотрим новый ресурс под названием LLM-O ASIS, который был создан для решения этой проблемы.

Проблема фактической достоверности

Одной из ключевых задач в NLP является оценка фактической достоверности текста. Это включает в себя проверку истинности утверждений, сделанных в тексте, что является сложной задачей, особенно в контексте LLM, которые могут генерировать высококачественный, но фактически неверный контент. Существующие ресурсы для оценки фактической достоверности часто имеют следующие ограничения:

Они адаптированы под специфические задачи или домены.
Они ограничены по размеру, что затрудняет обучение новых оценщиков фактической достоверности.
Они предназначены для более простых задач проверки фактов, таких как верификация утверждений.

LLM-O ASIS: Новый ресурс для оценки фактической достоверности

Для решения вышеупомянутых проблем был представлен LLM-O ASIS — ресурс, который, по нашим данным, является самым крупным набором данных для тренировки систем оценки фактической достоверности в формате "от начала до конца". LLM-O ASIS был создан путем извлечения утверждений из Википедии, фальсификации части из них и генерации пар текстов: фактического и не фактического.

Процесс создания LLM-O ASIS

Процесс создания LLM-O ASIS включает несколько этапов:

Извлечение утверждений (Claim Extraction): Из Википедии извлекаются утверждения, которые затем используются для создания пар фактических и не фактических текстов.
Фальсификация утверждений (Claim Falsification): Одно из извлеченных утверждений изменяется, чтобы создать фактическую ошибку.
Генерация текстов (Text Generation): На основе извлеченных утверждений создаются парафразированные версии оригинального текста, включая как фактические, так и не фактические версии.

В результате этих шагов был создан набор данных, содержащий 81 тысячу пар "фактический - не фактический", который можно использовать для обучения и оценки систем фактической проверки.

Аннотация и создание золотого стандарта

Для обеспечения качества данных в LLM-O ASIS была организована аннотационная работа, в ходе которой эксперты проверяли правильность извлеченных данных и создавали золотой стандарт для оценки систем фактической проверки. Это позволяет не только валидировать качество набора данных, но и использовать его для бенчмаркинга различных LLM.

Эксперименты и результаты

Эксперименты, проведенные с использованием LLM-O ASIS, показали, что данный ресурс представляет собой значительную проблему для современных LLM. Например, модель GPT-4o достигла лишь 60% точности в задаче оценки фактической достоверности в формате "от начала до конца" и 68% в условиях, когда было предоставлено дополнительное evidence.

Задачи для оценки фактической достоверности

В рамках LLM-O ASIS были предложены две основные задачи для оценки фактической достоверности:

Оценка фактической достоверности текста: задача заключается в определении, содержит ли текст фактические ошибки.
Верификация утверждений на основе доказательств: задача заключается в классификации отдельных утверждений как фактических или не фактических на основе предоставленных доказательств.

Заключение и будущее направление исследований

LLM-O ASIS представляет собой важный шаг вперед в области оценки фактической достоверности, предоставляя исследователям и разработчикам инструменты для создания более надежных систем проверки фактов. В будущем мы планируем расширить LLM-O ASIS, добавив данные из различных доменов и на разных языках, что повысит его универсальность и применимость в различных контекстах.

С помощью LLM-O ASIS мы надеемся способствовать дальнейшим исследованиям в области оценки фактической достоверности и улучшению LLM, чтобы они могли генерировать более точный и достоверный контент.

Статья на arxiv Оригинал pdf models factuality evaluation

Ай Дайджест