Ай Дайджест - категория multilingual

MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержание внутри изображений на различные языки. Однако существующие наборы данных часто страдают от ограничений по масштабу, разнообразию и качеству, что препятствует разработке и оценке моделей IT. Чтобы решить эту проблему, мы представляем MIT-10M, крупномасштабный параллельный корпус многоязычного перевода изображений с более чем 10 миллионами пар изображений и текста, полученных из реальных данных, которые прошли тщательную очистку и проверку многоязычного перевода. Он содержит 840 тысяч изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 языков пар изображений и текста, что является значительным улучшением существующих наборов данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает высокой адаптивностью при оценке производительности моделей в решении сложных задач перевода изображений в реальном мире. Более того, производительность модели, дообученной на MIT-10M, утроилась по сравнению с базовой моделью, что дополнительно подтверждает ее превосходство.

2024-12-12performance multilingual dataset

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

2024-12-10models multilingual language

Оценка многоязычного понимания языка с учетом региональных знаний

Дискриминация производительности больших языковых моделей (LLM) между языками мешает их эффективному развертыванию во многих регионах, ограничивая потенциальную экономическую и социальную ценность инструментов генеративного ИИ во многих сообществах. Тем не менее, разработка функциональных LLM на многих языках (то есть, многоязычных LLM) сдерживается нехваткой ресурсов для оценки качеств на языках, отличных от английского. Более того, текущие практики в построении многоязычных контрольных испытаний часто переводят ресурсы на английский, игнорируя региональные и культурные знания об окружении, в котором будут использоваться многоязычные системы. В этой работе мы создаем набор оценочных данных из 197 243 пар вопросов и ответов из местных источников экзаменов, чтобы измерить возможности многоязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, является всеобъемлющим ориентированным на знания и рассуждение контрольным испытанием на 44 письменных языках, который оценивает многоязычные LLM по производительности в тех языковых средах, где они будут развернуты.

2024-12-03performance deployment resources

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

2024-12-02language modeling classification

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

2024-11-20models performance efficiency

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

2024-11-18model dataset tokens

Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей

Смешение кодов, интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения, является широко распространенным лингвистическим явлением, особенно в многоязычных обществах. В Индии пользователи социальных сетей часто ведут смешанные коды разговоров с использованием латинского алфавита, особенно среди мигрантских сообществ, которые создают онлайн-группы для обмена актуальной местной информацией. В данной статье рассматриваются проблемы извлечения актуальной информации из смешанных кодов разговоров, в частности, из бенгальского языка, транслитерированного в латиницу и смешанного с английским. Это исследование предлагает новый подход к решению этих проблем путем разработки механизма для автоматического выявления наиболее релевантных ответов из смешанных кодов разговоров. Мы провели эксперименты на наборе данных, состоящем из запросов и документов из Facebook, а также файлов релевантности запросов (QRels), чтобы помочь в этой задаче. Наши результаты демонстрируют эффективность нашего подхода в извлечении значимой информации из сложных, смешанных кодов цифровых разговоров, что вносит вклад в более широкую область обработки естественного языка в многоязычных и неформальных текстовых средах. Мы используем GPT-3.5 Turbo через запросы, а также используем последовательную природу релевантных документов для построения математической модели, которая помогает обнаруживать релевантные документы, соответствующие запросу.

2024-11-08code-mixing classification multilingual

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

2024-11-05multilingual language dialect

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

2024-11-04language multilingual completion

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.

2024-11-04sampling annotation error-analysis

Подход на основе сети указателей для совместной извлечения и обнаружения многометочных многоклассовых намерений

В задачно-ориентированных диалоговых системах распознавание намерений является ключевым для интерпретации запросов пользователя и предоставления соответствующих ответов. Существующие исследования в основном рассматривают простые запросы с единственным намерением, не предлагая эффективных систем для обработки сложных запросов с несколькими намерениями и извлечения различных сегментов намерений. Кроме того, отсутствуют многоязычные, многонамеренные наборы данных. Данное исследование охватывает три критических аспекта: извлечение нескольких сегментов намерений из запросов, обнаружение нескольких намерений и разработку многоязычного набора данных с множественными метками намерений. Мы представляем новый набор данных для многомерной многоклассовой классификации намерений (MLMCID-dataset), созданный на основе существующих эталонных наборов данных. Также мы предлагаем архитектуру на основе указательной сети (MLMCID) для извлечения сегментов намерений и обнаружения множества намерений с использованием грубых и детализированных меток в форме секстетов. Комплексный анализ показывает превосходство нашей системы, основанной на указательной сети, над базовыми подходами в отношении точности и F1-оценки на различных наборах данных.

2024-11-01spans intent pointer