Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

В современном мире искусственного интеллекта (AI) трансформерные архитектуры, такие как LLM (Large Language Models), изменили множество областей, от финансов до медицины и образования. Токенизация играет ключевую роль в препроцессинге и тонкой настройке этих моделей. Особенно важно это для мультиязычных моделей, которые должны эффективно обрабатывать различные языки, включая индийские. В этой статье мы представим комплексную оценку токенизаторов, используемых в 12 LLM для всех 22 официальных языков Индии, с акцентом на сравнение эффективности их токенизационных процессов.

Фон

Токенизация – это процесс преобразования текста в токены, которые могут быть числами или строками, представляющими отдельные слова или части слов. В LLM часто используются два основных алгоритма токенизации: WordPiece и Byte Pair Encoding (BPE). WordPiece, используемый в моделях типа BERT, начинает с наибольшего подстрока, соответствующего токену в словаре, что позволяет эффективно обрабатывать неизвестные слова. BPE, напротив, итеративно объединяет наиболее часто встречающиеся пары символов или подслов в корпусе для создания полного словаря.

Методология

Примеры текста

Мы собрали примеры текстов для всех 22 языков, чтобы оценить производительность токенизаторов. Каждый текст был выбран в его основной письменной форме для обеспечения аутентичного анализа способности токенизатора обрабатывать родные скрипты. Эти тексты представлены в приложении A.2 или на рисунках 26 и 27.

Модели

Для нашего исследования мы выбрали 12 моделей, включая проприетарные мультиязычные модели и модели с открытым доступом, специально разработанные для индийских языков. Список моделей представлен в таблице 1. Некоторые из этих моделей не предназначены для всех индийских языков, например, MahaMarathi для маратхи или Nanda для хинди и английского, но мы включили их для полноты оценки.

Метрика оценки

Мы использовали метрику Normalized Sequence Length (NSL), которая определяется как отношение длины последовательности, закодированной токенизатором T_λ, к длине последовательности, закодированной базовым токенизатором T_β. Формально:

[ c_{\lambda\beta} = \frac{\sum_{i=1}^{N} \text{length}(T_{\lambda}(D_i))}{\sum_{i=1}^{N} \text{length}(T_{\beta}(D_i))} ]

где (N) - количество примеров из набора данных (D).

Результаты

Средние значения NSL

Таблица 2 представляет средние значения NSL для всех токенизаторов по 22 языкам, рассчитанные на основе предоставленных примеров. Наилучший результат выделен жирным шрифтом. СУТРА токенизатор показал себя лучше всех, опережая даже ChatGPT's 4-o и другие индийские модели.

Количество токенов

Приложение A.1 предоставляет индивидуальные графики для каждого языка, показывая количество токенов, генерируемых каждым токенизатором. Меньшее количество токенов указывает на лучшую производительность.

Обсуждение

Наш анализ показал, что токенизатор СУТРА превосходит все остальные модели, включая специализированные индийские модели, в 14 из 22 языков. Это подчеркивает его способность эффективно обрабатывать индийские языки. Интересно отметить, что GPT-4o значительно улучшил обработку индийских языков по сравнению с его предшественником GPT-4, что свидетельствует о прогрессе в мультиязычных возможностях.

Проект Indus, разработанный Tech Mahindra, показал хорошие результаты только для нескольких языков, использующих деванагари, что может указывать на ограниченную подготовку токенизатора к обработке других скриптов.

Значение токенизации в LLM

Токенизация играет критическую роль в LLM, позволяя модели эффективно обрабатывать текст, включая сложные языковые структуры, слова, не встречавшиеся в обучающем наборе, и контексты на нескольких языках. Хорошо разработанный токенизатор уменьшает вычислительные затраты и ресурсы, необходимые для обработки текста, что приводит к быстрой обработке и улучшению общей производительности модели.

Реальные приложения и будущие направления

Результаты нашего исследования имеют важные последствия для разработки мультиязычных моделей, особенно для индийских языков. Будущие исследования могут сосредоточиться на улучшении токенизаторов для более эффективного обработки языков с сложными скриптами или диалектическими вариациями, а также на повышении производительности моделей для языков с ограниченными ресурсами.

Заключение

Это исследование подчеркивает важность разработки токенизационных стратегий, ориентированных на конкретные языки, особенно для индийских языков с их богатым лингвистическим разнообразием. СУТРА токенизатор показал себя как лидер в обработке индийских языков, что открывает путь для дальнейших улучшений в дизайне токенизаторов для повышения охвата языков и эффективности моделей.

Статья на arxiv Оригинал pdf transformer multilingual models

Ай Дайджест