Свежая выжимка ml и AI статей - каждый день
С быстрым развитием технологий искусственного интеллекта (AI) становится все более важным создание больших языковых моделей (LLM), способных эффективно работать в различных языковых и культурных контекстах. Это гарантирует справедливое и равноправное использование таких технологий для различных групп пользователей. Однако, как показывает практика, существующие языковые модели часто демонстрируют разную эффективность в зависимости от языка, что значительно ограничивает их применение в разных регионах. Это также усугубляет цифровые разрывы и препятствует экономической и социальной ценности инструментов AI в недостаточно обслуживаемых сообществах.
Одной из основных причин этой проблемы является нехватка качественных ресурсов для оценки моделей в языках, отличных от английского. В большинстве случаев существующие многоязычные бенчмарки просто переводят ресурсы на английском, игнорируя региональные и культурные особенности, которые могут значительно влиять на понимание и использование языковых моделей. В данной статье мы рассмотрим новый бенчмарк под названием INCLUDE, который был создан для оценки многоязычных LLM с учетом региональных знаний.
Существующие бенчмарки для LLM в основном сосредоточены на английском языке, что создает серьезные ограничения для многоязычных моделей. Хотя некоторые бенчмарки для других языков и существуют, они часто фокусируются на отдельных языках или специфических регионах, не учитывая важность совместной оценки для раскрытия преимуществ многоязычных возможностей.
Сбор многоязычных данных часто осуществляется с использованием шаблонов, что приводит к низкому разнообразию запросов и ответов. Многие наборы данных состоят из переводов с высокоресурсных языков, таких как английский, что приводит к ошибкам и артефактам перевода. Более того, эти наборы не отражают региональные и культурные контексты, что критически важно для правильного понимания и использования языка.
Региональные знания определяются как специфическая информация, культура и практики, относящиеся к местной среде, которые важны для контекста пользователя. Например, юридический вопрос, заданный на английском, русском или греческом языках, может отражать разные правовые системы и культурные контексты, в которых эти языки используются. Поэтому важно учитывать региональные и культурные аспекты в процессе оценки.
Бенчмарк INCLUDE был разработан для устранения разрыва в оценке многоязычных LLM, собирая данные из местных источников, таких как образовательные и профессиональные экзамены, которые были первоначально созданы носителями языка. Это позволяет избежать артефактов перевода и захватывает культурные нюансы, связанные с каждым языком.
INCLUDE включает в себя 197,243 вопросов и ответов из 1,926 экзаменов на 44 языках и 15 письменных систем. Эти экзамены были собраны из местных источников в 52 странах и представляют собой разнообразный набор культурных и региональных знаний. Все вопросы представлены на родных языках и системах письма.
Для создания INCLUDE были собраны источники экзаменов в сотрудничестве с носителями языка и региональными ассоциациями. Основное внимание уделялось трем типам экзаменов:
Вопросы в INCLUDE были аннотированы с учетом различных категорий, таких как тематика вопроса и его региональная специфичность. Вопросы были разделены на две основные группы: регионально-агностичные и регионально-специфичные. Регионально-агностичные вопросы не требуют знания о конкретных регионах, тогда как регионально-специфичные вопросы требуют знаний, которые могут зависеть от культурного или географического контекста.
Благодаря широте INCLUDE (197,243 QA-пары на 44 языках) он подходит для множества случаев оценки, включая монолингвальную и многоязычную оценку. Для многоязычной оценки были собраны два поднабора данных:
Для оценки INCLUDE были выбраны несколько моделей, включая GPT-4o, Llama-3.1, Aya-expanse и Qwen. Каждая из этих моделей была протестирована с использованием различных методов подбора, таких как 5-shot и zero-shot prompting.
Результаты показывают, что модели, такие как GPT-4o, достигли наивысшей производительности, с точностью около 77.1% в INCLUDE-BASE. Однако наблюдается высокая изменчивость в производительности между различными языками, что указывает на необходимость улучшения в области многоязычного понимания.
Модели показывают лучшее понимание языков, на которых они были специально обучены. Например, языки, на которых модели не были обучены, демонстрируют значительно более низкие результаты. Это подчеркивает важность многоязычного обучения и необходимости создания моделей, которые могут эффективно обрабатывать различные языки.
Анализ показывает, что модели хуже справляются с вопросами, требующими региональных знаний, таких как исторические или профессиональные сертификационные экзамены. Например, в экзаменах по медицинским лицензиям модели показывают особенно низкие результаты, что указывает на недостаток специализированных знаний.
Бенчмарк INCLUDE представляет собой важный шаг в оценке многоязычных LLM, предлагая разнообразный набор вопросов и ответов, которые учитывают региональные и культурные контексты. Результаты указывают на значительные возможности для улучшения в понимании региональных знаний и подчеркивают необходимость дальнейших исследований и разработок в этой области. INCLUDE предлагает исследователям и разработчикам новый и ценный инструмент для оценки и улучшения многоязычных моделей в контексте реальных языковых сред, где они будут использоваться.