Китайский SimpleQA: Оценка фактичности больших языковых моделей

В последние годы большие языковые модели (LLM) значительно продвинулись в понимании и генерации текста на различных языках. Однако, несмотря на эти достижения, одна из ключевых проблем, стоящих перед разработчиками и исследователями, заключается в обеспечении фактичности ответов, которые эти модели предоставляют. Фактичность, или способность модели давать ответы, соответствующие реальности, является критически важной для практического применения LLM. В этом контексте появился новый инструмент для оценки – китайский SimpleQA.

В мире, где информация распространяется быстро, а её точность имеет решающее значение, оценка фактичности языковых моделей становится всё более актуальной. Проблема "галлюцинаций" (когда модель выдаёт неверную или недостоверную информацию) остаётся одной из главных преград для широкого внедрения LLM в различные сферы жизни. Для решения этой проблемы OpenAI представила SimpleQA – бенчмарк, направленный на измерение фактичности кратких ответов моделей на английском языке. Однако, понимание того, как LLM работают с другими языками, особенно с такими сложными и богатыми, как китайский, требует отдельного подхода.

Китайский SimpleQA

Китайский SimpleQA – это первый комплексный бенчмарк для оценки способности LLM отвечать на краткие вопросы на китайском языке. Он обладает несколькими ключевыми особенностями:

Китайский язык: Бенчмарк фокусируется на китайском языке, что позволяет оценить способность моделей к работе с его уникальными лингвистическими особенностями.
Разнообразие: Включает в себя 6 основных тематик и 99 подтем, охватывающих широкий спектр знаний от гуманитарных наук до естественных.
Высокое качество: Процесс контроля качества включает в себя независимую проверку, двойную аннотацию и верификацию через поисковые системы.
Статичность: Ответы на вопросы остаются неизменными, что гарантирует, что оценка будет актуальной и справедливой на протяжении времени.
Лёгкость оценки: Вопросы и ответы краткие, что упрощает процесс оценки с помощью API OpenAI.

Сбор данных

Процесс создания китайского SimpleQA включает в себя несколько этапов:

Извлечение и фильтрация контента: Сбор данных из различных источников, таких как Википедия, и фильтрация с помощью моделей оценки качества.
Генерация пар вопрос-ответ: Использование LLM для создания вопросов и ответов на основе отфильтрованного контента.
Проверка LLM: Удаление пар, не соответствующих критериям с помощью LLM.
Верификация RAG: Использование систем извлечения информации для проверки фактической корректности ответов.
Фильтрация по сложности: Отбор вопросов, которые вызывают трудности у различных моделей, для обеспечения адекватной оценки.

Критерии для вопросов и ответов

Ответы должны быть объективными и уникальными.
Вопросы должны относиться к фактическим знаниям, не зависеть от личных мнений.
Ответы не должны изменяться со временем.
Вопросы должны быть сложными, но ответимыми на момент 2023 года.

Контроль качества

После автоматизированного сбора данных, каждый вопрос проходит через процесс человеческой верификации, включая:

Независимую оценку двумя аннотаторами.
Использование поисковых систем для проверки информации.
Обязательное предоставление двух URL-ссылок на авторитетные источники.
В случае несогласия, третий аннотатор принимает окончательное решение.

Результаты и анализ

На основе китайского SimpleQA были проведены обширные оценки существующих LLM. Некоторые ключевые наблюдения включают:

Трудность бенчмарка: Только модели o1-preview и Doubao-pro-32k достигли проходного балла, что указывает на необходимость дальнейшего улучшения большинства моделей.
Размер модели и результаты: Было замечено, что более крупные модели демонстрируют лучшие результаты.
Калибровка моделей: Более крупные модели оказались лучше калиброванными, что означает, что их уверенность в ответах более соответствует их фактической точности.
Влияние RAG: Использование стратегии RAG значительно улучшило результаты, особенно для меньших моделей.
Налог на выравнивание: Существующие стратегии выравнивания или постобучения часто уменьшают фактичность моделей.
Различия в ранжировании: Модели, специализирующиеся на китайском языке, показали лучшие результаты в теме "Китайская культура", чем общие модели.

Заключение

Китайский SimpleQA представляет собой важный шаг в оценке и улучшении фактичности LLM на китайском языке. Его создание и использование помогают разработчикам и исследователям лучше понимать, как модели работают с китайским языком, и как можно улучшить их способность давать точные и проверяемые ответы. В будущем планируется расширить бенчмарк для поддержки мультиязычных, мультимодальных и специализированных задач, что откроет новые горизонты для исследования и применения LLM.

Статья на arxiv Оригинал pdf llm factuality quality

Ай Дайджест

Китайский SimpleQA: Оценка фактичности больших языковых моделей