CamemBERT 2.0: Эволюция французского языкового моделирования

В последние годы французские языковые модели, такие как CamemBERT, стали неотъемлемой частью бизнеса, использующего обработку естественного языка (NLP) для повышения производительности и эффективности. С момента своего выпуска в 2019 году, CamemBERT завоевал широкое признание, получая более 4 миллионов загрузок в месяц и активно используясь сообществом NLP. Например, ENEDIS использовал CamemBERT для автоматизации обработки 100 000 запросов клиентов в день, что значительно сократило ручной труд и принесло экономию около 3 миллионов евро в год.

Однако модели, подобные CamemBERT, сталкиваются с серьёзным вызовом — временным концептуальным дрейфом. Этот феномен возникает, когда обучающие данные модели устаревают, что приводит к снижению производительности при столкновении с новыми темами, событиями и терминологией. Например, когда CamemBERT был обучен, в его данных не было обсуждений о COVID-19, что затрудняет его понимание и генерацию ответов на эти темы сегодня.

Учитывая эти вызовы, в этой статье мы представляем две новые версии базовой модели CamemBERT: CamemBERTav2 и CamemBERTv2, разработанные для решения проблем временного дрейфа и улучшения производительности на современных задачах NLP.

CamemBERT 2.0: Обновленные версии

CamemBERTav2

CamemBERTav2 построен на архитектуре DeBERTaV3 и использует метод обучения с обнаружением замененных токенов (RTD) для улучшения понимания контекста и позиционного представления. Это позволяет модели более точно обрабатывать сложные языковые конструкции и зависимости.

CamemBERTv2

CamemBERTv2 основан на архитектуре RoBERTa и использует метод маскированного языкового моделирования (MLM) для обучения. Эта модель предназначена для замены оригинального CamemBERT в задачах, где требуется вычисление вероятности псевдоязыкового моделирования.

Обе модели обучены на значительно большем и более актуальном датасете, который включает в себя последние лингвистические тенденции и расширенный словарь для улучшения токенизации.

Обучающий датасет

Наш новый обучающий датасет включает французскую часть корпуса CulturaX, который объединяет данные из mC4 и нескольких версий OSCAR, а также французский раздел Википедии и научные статьи из корпуса HALvesting. В общей сложности, мы собрали 275 миллиардов токенов, что значительно больше, чем 32 миллиарда токенов, использованных для обучения оригинального CamemBERT.

Токенизатор

Одним из ключевых улучшений в CamemBERTv2 является обновленный токенизатор. Он был разработан для повышения эффективности токенизации путем введения новых символов, таких как переносы строк, табуляция, поддержка эмодзи и улучшенная обработка чисел. Токенизатор использует алгоритм WordPiece, что позволяет легко добавлять новые токены и адаптировать словарь под современные требования.

Методология предобучения

Процесс предобучения обеих моделей проходил в два этапа. Сначала модели обучались на последовательностях длиной 512 токенов для быстрой сходимости, затем на последовательностях длиной 1024 токенов для улавливания дальних зависимостей. CamemBERTv2 обучался в течение трех эпох, а CamemBERTav2, благодаря более эффективному методу обучения RTD, достигал пика производительности уже после одной эпохи.

Результаты

Общие задачи NLP

На общих задачах NLP, таких как теггирование частей речи (POS), распознавание именованных сущностей (NER), ответы на вопросы (QA) и классификация текста, новые версии CamemBERT показали значительные улучшения. Например, в задаче QA на датасете FQuAD 1.0, CamemBERTav2 достиг F1-скора 83.04%, что значительно выше, чем у предыдущих моделей.

Специализированные задачи

В специализированных областях, таких как медицинские задачи NER, обе модели также продемонстрировали высокую эффективность, сравнимую с моделями, специально обученными на биомедицинских данных. Это подчеркивает их универсальность и способность адаптироваться к различным специализированным контекстам.

Обсуждение

Результаты наших экспериментов ясно показывают значительный прогресс, достигнутый с помощью CamemBERTv2 и CamemBERTav2. Улучшения в общих и специализированных задачах NLP подтверждают эффективность новых архитектур и методов обучения. Однако, несмотря на эти достижения, некоторые задачи, такие как POS-теггирование и синтаксический анализ, показывают, что возможности текущих трансформеров могут быть близки к насыщению. Это указывает на необходимость новых подходов для дальнейшего прогресса в этих областях.

Заключение

Разработка CamemBERTv2 и CamemBERTav2 представляет собой значительный шаг вперед в моделировании французского языка. Эти модели демонстрируют улучшенную производительность и универсальность, что делает их ценным инструментом для современных систем NLP. В будущем необходимо не только совершенствовать архитектуры моделей, но и регулярно обновлять датасеты, чтобы бороться с временным концептуальным дрейфом и поддерживать актуальность моделей в реальных приложениях.

Статья на arxiv Оригинал pdf performance evaluation architecture

Ай Дайджест