Китайский SimpleQA: Оценка фактичности больших языковых моделей
В последние годы большие языковые модели (LLM) значительно продвинулись в понимании и генерации текста на различных языках. Однако, несмотря на эти достижения, одна из ключевых проблем, стоящих перед разработчиками и исследователями, заключается в обеспечении фактичности ответов, которые эти модели предоставляют. Фактичность, или способность модели давать ответы, соответствующие реальности, является критически важной для практического применения LLM. В этом контексте появился новый инструмент для оценки – китайский SimpleQA.
В мире, где информация распространяется быстро, а её точность имеет решающее значение, оценка фактичности языковых моделей становится всё более актуальной. Проблема "галлюцинаций" (когда модель выдаёт неверную или недостоверную информацию) остаётся одной из главных преград для широкого внедрения LLM в различные сферы жизни. Для решения этой проблемы OpenAI представила SimpleQA – бенчмарк, направленный на измерение фактичности кратких ответов моделей на английском языке. Однако, понимание того, как LLM работают с другими языками, особенно с такими сложными и богатыми, как китайский, требует отдельного подхода.
Китайский SimpleQA
Китайский SimpleQA – это первый комплексный бенчмарк для оценки способности LLM отвечать на краткие вопросы на китайском языке. Он обладает несколькими ключевыми особенностями:
- Китайский язык: Бенчмарк фокусируется на китайском языке, что позволяет оценить способность моделей к работе с его уникальными лингвистическими особенностями.
- Разнообразие: Включает в себя 6 основных тематик и 99 подтем, охватывающих широкий спектр знаний от гуманитарных наук до естественных.
- Высокое качество: Процесс контроля качества включает в себя независимую проверку, двойную аннотацию и верификацию через поисковые системы.
- Статичность: Ответы на вопросы остаются неизменными, что гарантирует, что оценка будет актуальной и справедливой на протяжении времени.
- Лёгкость оценки: Вопросы и ответы краткие, что упрощает процесс оценки с помощью API OpenAI.
Сбор данных
Процесс создания китайского SimpleQA включает в себя несколько этапов:
- Извлечение и фильтрация контента: Сбор данных из различных источников, таких как Википедия, и фильтрация с помощью моделей оценки качества.
- Генерация пар вопрос-ответ: Использование LLM для создания вопросов и ответов на основе отфильтрованного контента.
- Проверка LLM: Удаление пар, не соответствующих критериям с помощью LLM.
- Верификация RAG: Использование систем извлечения информации для проверки фактической корректности ответов.
- Фильтрация по сложности: Отбор вопросов, которые вызывают трудности у различных моделей, для обеспечения адекватной оценки.
Критерии для вопросов и ответов
- Ответы должны быть объективными и уникальными.
- Вопросы должны относиться к фактическим знаниям, не зависеть от личных мнений.
- Ответы не должны изменяться со временем.
- Вопросы должны быть сложными, но ответимыми на момент 2023 года.
Контроль качества
После автоматизированного сбора данных, каждый вопрос проходит через процесс человеческой верификации, включая:
- Независимую оценку двумя аннотаторами.
- Использование поисковых систем для проверки информации.
- Обязательное предоставление двух URL-ссылок на авторитетные источники.
- В случае несогласия, третий аннотатор принимает окончательное решение.
Результаты и анализ
На основе китайского SimpleQA были проведены обширные оценки существующих LLM. Некоторые ключевые наблюдения включают:
- Трудность бенчмарка: Только модели o1-preview и Doubao-pro-32k достигли проходного балла, что указывает на необходимость дальнейшего улучшения большинства моделей.
- Размер модели и результаты: Было замечено, что более крупные модели демонстрируют лучшие результаты.
- Калибровка моделей: Более крупные модели оказались лучше калиброванными, что означает, что их уверенность в ответах более соответствует их фактической точности.
- Влияние RAG: Использование стратегии RAG значительно улучшило результаты, особенно для меньших моделей.
- Налог на выравнивание: Существующие стратегии выравнивания или постобучения часто уменьшают фактичность моделей.
- Различия в ранжировании: Модели, специализирующиеся на китайском языке, показали лучшие результаты в теме "Китайская культура", чем общие модели.
Заключение
Китайский SimpleQA представляет собой важный шаг в оценке и улучшении фактичности LLM на китайском языке. Его создание и использование помогают разработчикам и исследователям лучше понимать, как модели работают с китайским языком, и как можно улучшить их способность давать точные и проверяемые ответы. В будущем планируется расширить бенчмарк для поддержки мультиязычных, мультимодальных и специализированных задач, что откроет новые горизонты для исследования и применения LLM.