Оценка многоязычного понимания языка с учетом региональных знаний

С быстрым развитием технологий искусственного интеллекта (AI) становится все более важным создание больших языковых моделей (LLM), способных эффективно работать в различных языковых и культурных контекстах. Это гарантирует справедливое и равноправное использование таких технологий для различных групп пользователей. Однако, как показывает практика, существующие языковые модели часто демонстрируют разную эффективность в зависимости от языка, что значительно ограничивает их применение в разных регионах. Это также усугубляет цифровые разрывы и препятствует экономической и социальной ценности инструментов AI в недостаточно обслуживаемых сообществах.

Одной из основных причин этой проблемы является нехватка качественных ресурсов для оценки моделей в языках, отличных от английского. В большинстве случаев существующие многоязычные бенчмарки просто переводят ресурсы на английском, игнорируя региональные и культурные особенности, которые могут значительно влиять на понимание и использование языковых моделей. В данной статье мы рассмотрим новый бенчмарк под названием INCLUDE, который был создан для оценки многоязычных LLM с учетом региональных знаний.

Проблема оценки многоязычных моделей

Разрыв в оценке

Существующие бенчмарки для LLM в основном сосредоточены на английском языке, что создает серьезные ограничения для многоязычных моделей. Хотя некоторые бенчмарки для других языков и существуют, они часто фокусируются на отдельных языках или специфических регионах, не учитывая важность совместной оценки для раскрытия преимуществ многоязычных возможностей.

Технические проблемы

Сбор многоязычных данных часто осуществляется с использованием шаблонов, что приводит к низкому разнообразию запросов и ответов. Многие наборы данных состоят из переводов с высокоресурсных языков, таких как английский, что приводит к ошибкам и артефактам перевода. Более того, эти наборы не отражают региональные и культурные контексты, что критически важно для правильного понимания и использования языка.

Региональные и культурные знания

Региональные знания определяются как специфическая информация, культура и практики, относящиеся к местной среде, которые важны для контекста пользователя. Например, юридический вопрос, заданный на английском, русском или греческом языках, может отражать разные правовые системы и культурные контексты, в которых эти языки используются. Поэтому важно учитывать региональные и культурные аспекты в процессе оценки.

Бенчмарк INCLUDE

Цели и задачи

Бенчмарк INCLUDE был разработан для устранения разрыва в оценке многоязычных LLM, собирая данные из местных источников, таких как образовательные и профессиональные экзамены, которые были первоначально созданы носителями языка. Это позволяет избежать артефактов перевода и захватывает культурные нюансы, связанные с каждым языком.

Структура бенчмарка

INCLUDE включает в себя 197,243 вопросов и ответов из 1,926 экзаменов на 44 языках и 15 письменных систем. Эти экзамены были собраны из местных источников в 52 странах и представляют собой разнообразный набор культурных и региональных знаний. Все вопросы представлены на родных языках и системах письма.

Процесс сбора данных

Для создания INCLUDE были собраны источники экзаменов в сотрудничестве с носителями языка и региональными ассоциациями. Основное внимание уделялось трем типам экзаменов:

Академические экзамены: Экзамены по различным предметам (гуманитарные, STEM и т.д.) на разных уровнях, включая национальные вступительные экзамены.
Профессиональные сертификаты и лицензии: Экзамены, выдаваемые отраслевыми регулирующими органами для специализированных областей, таких как медицина и юриспруденция.
Региональные лицензии: Экзамены, проводимые региональными органами для оценки специфических квалификаций, таких как вождение и морская лицензия.

Классификация знаний

Вопросы в INCLUDE были аннотированы с учетом различных категорий, таких как тематика вопроса и его региональная специфичность. Вопросы были разделены на две основные группы: регионально-агностичные и регионально-специфичные. Регионально-агностичные вопросы не требуют знания о конкретных регионах, тогда как регионально-специфичные вопросы требуют знаний, которые могут зависеть от культурного или географического контекста.

Экспериментальная установка

Выбор данных

Благодаря широте INCLUDE (197,243 QA-пары на 44 языках) он подходит для множества случаев оценки, включая монолингвальную и многоязычную оценку. Для многоязычной оценки были собраны два поднабора данных:

INCLUDE-BASE: Этот поднабор включает 22,635 QA-пар, равномерно распределенных по языкам и задачам знаний.
INCLUDE-LITE: Легковесный поднабор, содержащий 10,770 QA-пар, предназначенный для быстрой оценки многоязычных LLM.

Модели для оценки

Для оценки INCLUDE были выбраны несколько моделей, включая GPT-4o, Llama-3.1, Aya-expanse и Qwen. Каждая из этих моделей была протестирована с использованием различных методов подбора, таких как 5-shot и zero-shot prompting.

Результаты и анализ

Общая производительность

Результаты показывают, что модели, такие как GPT-4o, достигли наивысшей производительности, с точностью около 77.1% в INCLUDE-BASE. Однако наблюдается высокая изменчивость в производительности между различными языками, что указывает на необходимость улучшения в области многоязычного понимания.

Анализ по языкам

Модели показывают лучшее понимание языков, на которых они были специально обучены. Например, языки, на которых модели не были обучены, демонстрируют значительно более низкие результаты. Это подчеркивает важность многоязычного обучения и необходимости создания моделей, которые могут эффективно обрабатывать различные языки.

Региональные и академические знания

Анализ показывает, что модели хуже справляются с вопросами, требующими региональных знаний, таких как исторические или профессиональные сертификационные экзамены. Например, в экзаменах по медицинским лицензиям модели показывают особенно низкие результаты, что указывает на недостаток специализированных знаний.

Заключение

Бенчмарк INCLUDE представляет собой важный шаг в оценке многоязычных LLM, предлагая разнообразный набор вопросов и ответов, которые учитывают региональные и культурные контексты. Результаты указывают на значительные возможности для улучшения в понимании региональных знаний и подчеркивают необходимость дальнейших исследований и разработок в этой области. INCLUDE предлагает исследователям и разработчикам новый и ценный инструмент для оценки и улучшения многоязычных моделей в контексте реальных языковых сред, где они будут использоваться.

Статья на arxiv Оригинал pdf benchmark multilingual evaluation

Ай Дайджест