Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Китайский SimpleQA: Оценка фактичности больших языковых моделей

В последние годы большие языковые модели (LLM) значительно продвинулись в понимании и генерации текста на различных языках. Однако, несмотря на эти достижения, одна из ключевых проблем, стоящих перед разработчиками и исследователями, заключается в обеспечении фактичности ответов, которые эти модели предоставляют. Фактичность, или способность модели давать ответы, соответствующие реальности, является критически важной для практического применения LLM. В этом контексте появился новый инструмент для оценки – китайский SimpleQA.

В мире, где информация распространяется быстро, а её точность имеет решающее значение, оценка фактичности языковых моделей становится всё более актуальной. Проблема "галлюцинаций" (когда модель выдаёт неверную или недостоверную информацию) остаётся одной из главных преград для широкого внедрения LLM в различные сферы жизни. Для решения этой проблемы OpenAI представила SimpleQA – бенчмарк, направленный на измерение фактичности кратких ответов моделей на английском языке. Однако, понимание того, как LLM работают с другими языками, особенно с такими сложными и богатыми, как китайский, требует отдельного подхода.

Китайский SimpleQA

Китайский SimpleQA – это первый комплексный бенчмарк для оценки способности LLM отвечать на краткие вопросы на китайском языке. Он обладает несколькими ключевыми особенностями:

  • Китайский язык: Бенчмарк фокусируется на китайском языке, что позволяет оценить способность моделей к работе с его уникальными лингвистическими особенностями.
  • Разнообразие: Включает в себя 6 основных тематик и 99 подтем, охватывающих широкий спектр знаний от гуманитарных наук до естественных.
  • Высокое качество: Процесс контроля качества включает в себя независимую проверку, двойную аннотацию и верификацию через поисковые системы.
  • Статичность: Ответы на вопросы остаются неизменными, что гарантирует, что оценка будет актуальной и справедливой на протяжении времени.
  • Лёгкость оценки: Вопросы и ответы краткие, что упрощает процесс оценки с помощью API OpenAI.

Сбор данных

Процесс создания китайского SimpleQA включает в себя несколько этапов:

  1. Извлечение и фильтрация контента: Сбор данных из различных источников, таких как Википедия, и фильтрация с помощью моделей оценки качества.
  2. Генерация пар вопрос-ответ: Использование LLM для создания вопросов и ответов на основе отфильтрованного контента.
  3. Проверка LLM: Удаление пар, не соответствующих критериям с помощью LLM.
  4. Верификация RAG: Использование систем извлечения информации для проверки фактической корректности ответов.
  5. Фильтрация по сложности: Отбор вопросов, которые вызывают трудности у различных моделей, для обеспечения адекватной оценки.

Критерии для вопросов и ответов

  • Ответы должны быть объективными и уникальными.
  • Вопросы должны относиться к фактическим знаниям, не зависеть от личных мнений.
  • Ответы не должны изменяться со временем.
  • Вопросы должны быть сложными, но ответимыми на момент 2023 года.

Контроль качества

После автоматизированного сбора данных, каждый вопрос проходит через процесс человеческой верификации, включая:

  • Независимую оценку двумя аннотаторами.
  • Использование поисковых систем для проверки информации.
  • Обязательное предоставление двух URL-ссылок на авторитетные источники.
  • В случае несогласия, третий аннотатор принимает окончательное решение.

Результаты и анализ

На основе китайского SimpleQA были проведены обширные оценки существующих LLM. Некоторые ключевые наблюдения включают:

  • Трудность бенчмарка: Только модели o1-preview и Doubao-pro-32k достигли проходного балла, что указывает на необходимость дальнейшего улучшения большинства моделей.
  • Размер модели и результаты: Было замечено, что более крупные модели демонстрируют лучшие результаты.
  • Калибровка моделей: Более крупные модели оказались лучше калиброванными, что означает, что их уверенность в ответах более соответствует их фактической точности.
  • Влияние RAG: Использование стратегии RAG значительно улучшило результаты, особенно для меньших моделей.
  • Налог на выравнивание: Существующие стратегии выравнивания или постобучения часто уменьшают фактичность моделей.
  • Различия в ранжировании: Модели, специализирующиеся на китайском языке, показали лучшие результаты в теме "Китайская культура", чем общие модели.

Заключение

Китайский SimpleQA представляет собой важный шаг в оценке и улучшении фактичности LLM на китайском языке. Его создание и использование помогают разработчикам и исследователям лучше понимать, как модели работают с китайским языком, и как можно улучшить их способность давать точные и проверяемые ответы. В будущем планируется расширить бенчмарк для поддержки мультиязычных, мультимодальных и специализированных задач, что откроет новые горизонты для исследования и применения LLM.