Ай Дайджест - категория chinese

Китайский SimpleQA: Оценка фактичности больших языковых моделей

Новые бенчмарки для оценки крупных языковых моделей (LLM) важны для соответствия быстрому развитию этих моделей. В данной работе мы представляем Chinese SimpleQA — первый всеобъемлющий китайский бенчмарк для оценки способности языковых моделей отвечать на краткие вопросы с точки зрения фактичности. Chinese SimpleQA обладает пятью ключевыми характеристиками: китайский язык, разнообразие, высокое качество, статичность и простота оценки. В частности, во-первых, мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим всесторонний процесс контроля качества для обеспечения высокого качества вопросов и ответов, где эталонные ответы являются статичными и не могут изменяться со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень короткие, а процесс оценки прост благодаря использованию API OpenAI. На основе Chinese SimpleQA мы проводим комплексную оценку фактической способности существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA поможет разработчикам лучше понимать способности их моделей в китайском контексте и способствовать развитию базовых моделей.

2024-11-12quality benchmark factuality