Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "factuality"

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

Китайский SimpleQA: Оценка фактичности больших языковых моделей

Новые бенчмарки для оценки крупных языковых моделей (LLM) важны для соответствия быстрому развитию этих моделей. В данной работе мы представляем Chinese SimpleQA — первый всеобъемлющий китайский бенчмарк для оценки способности языковых моделей отвечать на краткие вопросы с точки зрения фактичности. Chinese SimpleQA обладает пятью ключевыми характеристиками: китайский язык, разнообразие, высокое качество, статичность и простота оценки. В частности, во-первых, мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим всесторонний процесс контроля качества для обеспечения высокого качества вопросов и ответов, где эталонные ответы являются статичными и не могут изменяться со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень короткие, а процесс оценки прост благодаря использованию API OpenAI. На основе Chinese SimpleQA мы проводим комплексную оценку фактической способности существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA поможет разработчикам лучше понимать способности их моделей в китайском контексте и способствовать развитию базовых моделей.