Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей
Смешение кодов, интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения, является широко распространенным лингвистическим явлением, особенно в многоязычных обществах. В Индии пользователи социальных сетей часто ведут смешанные коды разговоров с использованием латинского алфавита, особенно среди мигрантских сообществ, которые создают онлайн-группы для обмена актуальной местной информацией. В данной статье рассматриваются проблемы извлечения актуальной информации из смешанных кодов разговоров, в частности, из бенгальского языка, транслитерированного в латиницу и смешанного с английским. Это исследование предлагает новый подход к решению этих проблем путем разработки механизма для автоматического выявления наиболее релевантных ответов из смешанных кодов разговоров. Мы провели эксперименты на наборе данных, состоящем из запросов и документов из Facebook, а также файлов релевантности запросов (QRels), чтобы помочь в этой задаче. Наши результаты демонстрируют эффективность нашего подхода в извлечении значимой информации из сложных, смешанных кодов цифровых разговоров, что вносит вклад в более широкую область обработки естественного языка в многоязычных и неформальных текстовых средах. Мы используем GPT-3.5 Turbo через запросы, а также используем последовательную природу релевантных документов для построения математической модели, которая помогает обнаруживать релевантные документы, соответствующие запросу.