Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

В последние годы большие мультимодальные модели (LMM) значительно продвинулись в решении различных задач, связанных с обработкой изображений и текста. Однако, несмотря на эти достижения, существует серьезный недостаток в способности этих моделей понимать и точно реагировать на культурное и языковое многообразие. В этом контексте была предложена новая оценка, известная как All Languages Matter Benchmark (ALM-bench), которая направлена на преодоление этих недостатков.

Современные LMM, такие как GPT-4 и другие, часто демонстрируют высокую производительность в широко распространенных языках, таких как английский, испанский и китайский. Однако они сталкиваются с трудностями при работе с языками, для которых существует ограниченное количество обучающих данных, что делает их менее эффективными для культурно разнообразных задач. ALM-bench был разработан для оценки LMM на 100 языках, включая множество языков с низкими ресурсами, и акцентирует внимание на культурной глубине и разнообразии.

Цели ALM-bench

Основная цель ALM-bench заключается в том, чтобы предоставить всестороннюю оценку LMM, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях и текстах. Этот набор данных включает в себя 22,7 тысячи вопросов и ответов, охватывающих 19 различных областей, включая архитектуру, обычаи, экономику, праздники и многое другое.

Структура ALM-bench

ALM-bench включает в себя 100 языков, 73 страны и 24 различных письменных систем. Он охватывает 13 культурных аспектов, таких как литература, музыка, спорт и наследие, и предлагает различные форматы вопросов, включая множественный выбор, истинные/ложные и открытые вопросы.

Культурные аспекты

Каждый из 13 культурных аспектов был тщательно подобран и включает в себя:

Архитектура
Обычаи
Экономика
Праздники
Еда
Наследие
Образ жизни
Литература
СМИ
Музыка
Знаменитые личности
Религия
Спорт

Эти аспекты помогают создать более полное представление о культурных различиях и нюансах, что является важным для создания инклюзивных моделей.

Процесс сбора данных

Сбор культурных данных

Культурные данные в ALM-bench собирались из различных источников, включая интернет, с использованием ключевых слов, связанных с конкретными странами и культурными категориями. Все изображения и соответствующие метаданные были проверены носителями языка для обеспечения культурной релевантности и точности.

Аннотация данных

В процессе аннотирования использовались как автоматизированные, так и ручные методы. Для обеспечения высокого качества аннотаций были привлечены более 60 волонтеров, знакомых с культурными аспектами своих языков. Это обеспечило глубокое понимание культурных нюансов и высокую точность аннотаций.

Оценка LMM с помощью ALM-bench

ALM-bench предоставляет стандартный набор данных для оценки LMM, позволяя исследователям сравнивать производительность различных моделей. В рамках оценки были протестированы 16 современных LMM, включая как открытые, так и закрытые модели.

Результаты оценки

Результаты показали, что закрытые модели, такие как GPT-4, в целом показывают лучшие результаты по сравнению с открытыми моделями. Например, GPT-4 достиг общей точности 78,8%, в то время как лучшая открытая модель, GLM-4V, показала 51,9%. Кроме того, производительность моделей значительно различалась в зависимости от языков, при этом высокоресурсные языки демонстрировали лучшие результаты, чем языки с низкими ресурсами.

Влияние визуального контекста

Также было проведено исследование, чтобы понять, насколько важен визуальный контекст для ответов на вопросы. Результаты показали, что производительность моделей значительно снижается при отсутствии изображений, что подчеркивает важность визуальной информации в мультимодальных задачах.

Заключение

ALM-bench представляет собой значимый шаг вперед в области оценки LMM, обеспечивая более глубокое понимание культурного разнообразия и языковых особенностей. Этот набор данных не только помогает выявить пробелы в существующих моделях, но и подчеркивает необходимость дальнейших исследований в области инклюзивности и культурной чувствительности в AI.

С помощью ALM-bench исследователи могут не только оценивать текущие модели, но и разрабатывать более инклюзивные решения, которые лучше обслуживают разнообразные глобальные сообщества.

Статья на arxiv Оригинал pdf language cultural model

Ай Дайджест