Свежая выжимка ml и AI статей - каждый день
В современном мире, где интернет стал основным средством коммуникации, особенно среди мультиязычных сообществ, явление коде-минглинга (code-mixing) приобретает все большее значение. Коде-минглинг — это практика смешивания лексики и грамматики из разных языков в рамках одного предложения, что особенно распространено в странах с богатым языковым разнообразием, таких как Индия. В этой статье мы рассмотрим новаторский подход к извлечению информации из коде-минглинговых текстов, представленный в работе "RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval" авторов Аникета Дероя и Субханкара Мейти.
Коде-минглинг не только отражает культурное и языковое разнообразие, но и представляет собой значительный вызов для систем обработки естественного языка (NLP). В Индии, где социальные сети являются платформой для обмена информацией между мигрантскими сообществами, использование английского языка в сочетании с транслитерированным бенгальским на латинской основе (Roman transliterated Bengali) является обычным делом. Эти группы часто создаются для обмена местными новостями, поиска работы, жилья или для обсуждения актуальных вопросов, таких как изменения в правительственных указаниях во время пандемии COVID-19.
Извлечение информации из таких текстов сталкивается с рядом проблем:
RetrieveGPT использует модель GPT-3.5 Turbo для решения задач информационного поиска. Вот как это работает:
Prompting: Создание подсказок (prompts) для модели, которые направляют её на выявление релевантности документов к заданному запросу. Подсказки помогают модели учитывать контекст и семантику текста, что особенно важно в случае коде-минглинга.
Sequential Nature: Учет последовательности документов в обсуждениях. Часто релевантность одного документа зависит от предыдущих или последующих документов в цепочке.
Для формализации процесса извлечения информации разработана математическая модель, которая учитывает:
Модель выражается через вероятность релевантности текущего документа (D_{n+1}) с учетом предыдущего (D_n):
[ P(D_{n+1} | D_n) = \begin{cases} \text{Score}(D_{n+1}), & \text{если } \text{Score}(D_{n+1}) < 0.3 \text{ и } D_n = \text{релевантный} \ \text{Score}(D_{n+1}), & \text{если } n = -1 \ 0.2 + \text{Score}(D_{n+1}), & \text{если } \text{Score}(D_{n+1}) \geq 0.3 \text{ и } D_n = \text{релевантный} \ \text{Score}(D_{n+1}), & \text{в других случаях} \end{cases} ]
В ходе экспериментов на датасете из 107900 документов и 50 запросов, команда "TextTitans" продемонстрировала следующие результаты:
Исследование RetrieveGPT демонстрирует, как можно эффективно извлекать информацию из коде-минглинговых текстов, используя комбинацию подсказок для LLM и математических моделей. Это не только улучшает доступность информации для мультиязычных сообществ, но и открывает новые возможности для NLP в обработке неформальных и мультиязычных текстов. В будущем, подобные подходы могут быть адаптированы для других языков и сценариев, что сделает цифровое общение более инклюзивным и доступным для всех.