Ай Дайджест - категория summarization

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

2024-12-04models factuality benchmarking