Свежая выжимка ml и AI статей - каждый день
С появлением больших языковых моделей (LLM) наблюдается значительный прогресс в области обработки естественного языка (NLP), особенно в задачах генерации текста, таких как резюмирование и машинный перевод. Однако, несмотря на эти достижения, LLM продолжают генерировать контент, содержащий "галлюцинации" — факты, которые не имеют под собой реальной основы. Это создает необходимость в разработке методов для оценки фактической достоверности выводов, сделанных LLM. В данной статье мы рассмотрим новый ресурс под названием LLM-O ASIS, который был создан для решения этой проблемы.
Одной из ключевых задач в NLP является оценка фактической достоверности текста. Это включает в себя проверку истинности утверждений, сделанных в тексте, что является сложной задачей, особенно в контексте LLM, которые могут генерировать высококачественный, но фактически неверный контент. Существующие ресурсы для оценки фактической достоверности часто имеют следующие ограничения:
Для решения вышеупомянутых проблем был представлен LLM-O ASIS — ресурс, который, по нашим данным, является самым крупным набором данных для тренировки систем оценки фактической достоверности в формате "от начала до конца". LLM-O ASIS был создан путем извлечения утверждений из Википедии, фальсификации части из них и генерации пар текстов: фактического и не фактического.
Процесс создания LLM-O ASIS включает несколько этапов:
В результате этих шагов был создан набор данных, содержащий 81 тысячу пар "фактический - не фактический", который можно использовать для обучения и оценки систем фактической проверки.
Для обеспечения качества данных в LLM-O ASIS была организована аннотационная работа, в ходе которой эксперты проверяли правильность извлеченных данных и создавали золотой стандарт для оценки систем фактической проверки. Это позволяет не только валидировать качество набора данных, но и использовать его для бенчмаркинга различных LLM.
Эксперименты, проведенные с использованием LLM-O ASIS, показали, что данный ресурс представляет собой значительную проблему для современных LLM. Например, модель GPT-4o достигла лишь 60% точности в задаче оценки фактической достоверности в формате "от начала до конца" и 68% в условиях, когда было предоставлено дополнительное evidence.
В рамках LLM-O ASIS были предложены две основные задачи для оценки фактической достоверности:
LLM-O ASIS представляет собой важный шаг вперед в области оценки фактической достоверности, предоставляя исследователям и разработчикам инструменты для создания более надежных систем проверки фактов. В будущем мы планируем расширить LLM-O ASIS, добавив данные из различных доменов и на разных языках, что повысит его универсальность и применимость в различных контекстах.
С помощью LLM-O ASIS мы надеемся способствовать дальнейшим исследованиям в области оценки фактической достоверности и улучшению LLM, чтобы они могли генерировать более точный и достоверный контент.