Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей

В современном мире, где интернет стал основным средством коммуникации, особенно среди мультиязычных сообществ, явление коде-минглинга (code-mixing) приобретает все большее значение. Коде-минглинг — это практика смешивания лексики и грамматики из разных языков в рамках одного предложения, что особенно распространено в странах с богатым языковым разнообразием, таких как Индия. В этой статье мы рассмотрим новаторский подход к извлечению информации из коде-минглинговых текстов, представленный в работе "RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval" авторов Аникета Дероя и Субханкара Мейти.

Введение в коде-минглинг

Коде-минглинг не только отражает культурное и языковое разнообразие, но и представляет собой значительный вызов для систем обработки естественного языка (NLP). В Индии, где социальные сети являются платформой для обмена информацией между мигрантскими сообществами, использование английского языка в сочетании с транслитерированным бенгальским на латинской основе (Roman transliterated Bengali) является обычным делом. Эти группы часто создаются для обмена местными новостями, поиска работы, жилья или для обсуждения актуальных вопросов, таких как изменения в правительственных указаниях во время пандемии COVID-19.

Проблемы извлечения информации

Извлечение информации из таких текстов сталкивается с рядом проблем:

Нестандартная орфография и грамматика: Транслитерация на латинскую основу приводит к множеству вариантов написания одного и того же слова, что усложняет стандартизацию текста.
Смешение языков: Необходимость понимания и обработки текстов, содержащих элементы из нескольких языков, требует сложных алгоритмов.
Неформальность и контекстуальная зависимость: В социальных сетях часто используется неформальный язык, который может быть непонятен для стандартных систем NLP.

Подход RetrieveGPT

Использование LLM и Prompt Engineering

RetrieveGPT использует модель GPT-3.5 Turbo для решения задач информационного поиска. Вот как это работает:

Prompting: Создание подсказок (prompts) для модели, которые направляют её на выявление релевантности документов к заданному запросу. Подсказки помогают модели учитывать контекст и семантику текста, что особенно важно в случае коде-минглинга.
Sequential Nature: Учет последовательности документов в обсуждениях. Часто релевантность одного документа зависит от предыдущих или последующих документов в цепочке.

Математическая модель

Для формализации процесса извлечения информации разработана математическая модель, которая учитывает:

Релевантность документа: Определяется на основе семантического сходства между запросом и документом.
Последовательная зависимость: Влияние предыдущих документов на релевантность текущего.

Модель выражается через вероятность релевантности текущего документа (D_{n+1}) с учетом предыдущего (D_n):

[ P(D_{n+1} | D_n) = \begin{cases} \text{Score}(D_{n+1}), & \text{если } \text{Score}(D_{n+1}) < 0.3 \text{ и } D_n = \text{релевантный} \ \text{Score}(D_{n+1}), & \text{если } n = -1 \ 0.2 + \text{Score}(D_{n+1}), & \text{если } \text{Score}(D_{n+1}) \geq 0.3 \text{ и } D_n = \text{релевантный} \ \text{Score}(D_{n+1}), & \text{в других случаях} \end{cases} ]

Результаты

В ходе экспериментов на датасете из 107900 документов и 50 запросов, команда "TextTitans" продемонстрировала следующие результаты:

MAP Score (Mean Average Precision): Показатель, измеряющий точность ранжирования релевантных документов, был высоким и стабильным, что указывает на эффективность подхода.
NDCG (Normalized Discounted Cumulative Gain): Оценка качества ранжирования также показала хорошие результаты.
P@5 и P@10 (Precision at 5 and 10): Показатели точности для первых пяти и десяти результатов были одинаковыми для всех подходов, что говорит о консистентности модели в определении наиболее релевантных документов.

Заключение

Исследование RetrieveGPT демонстрирует, как можно эффективно извлекать информацию из коде-минглинговых текстов, используя комбинацию подсказок для LLM и математических моделей. Это не только улучшает доступность информации для мультиязычных сообществ, но и открывает новые возможности для NLP в обработке неформальных и мультиязычных текстов. В будущем, подобные подходы могут быть адаптированы для других языков и сценариев, что сделает цифровое общение более инклюзивным и доступным для всех.

Статья на arxiv Оригинал pdf nlp multilingual code-mixing

Ай Дайджест