LLM Teacher-Student Framework for Multilingual News Topic Classification

Классификация тем новостей является важной задачей в современном мире, где объем информации растет с каждым днем. С помощью автоматической классификации новостей можно улучшить доступ читателей к релевантному контенту, что особенно актуально в условиях многопоточности и многоязычности. В данной статье мы рассматриваем новый подход, основанный на модели "учитель-ученик" с использованием крупных языковых моделей (LLM), который позволяет создавать многоязычные модели классификации новостей без необходимости ручной аннотации данных.

Проблематика и цели исследования

Существующие методы классификации новостей сталкиваются с несколькими проблемами, включая нехватку вручную аннотированных данных, особенно для языков, отличных от английского. Ручная аннотация данных является дорогостоящим и трудоемким процессом, что делает его неэффективным для масштабирования на миллионы текстов. В рамках нашего исследования мы ставим перед собой несколько ключевых вопросов:

Может ли модель-учитель, использованная для аннотации данных, достичь качества аннотации, сопоставимого с человеческими аннотаторами?
Какое количество аннотированных данных требуется для достижения производительности модели-ученика, сопоставимой с моделью-учителем?
Необходимо ли включать целевой язык в обучающие данные, или модель-ученик демонстрирует удовлетворительные возможности нулевой передачи?
Приведет ли дообучение модели-ученика на монолингвальных данных к лучшим результатам по сравнению с обучением на многоязычном наборе данных равного размера?

Методология

Подход "учитель-ученик"

Мы предлагаем использовать модель GPT в качестве модели-учителя для автоматической аннотации новостей. Эта модель будет аннотировать статьи на нескольких языках, включая словенский, хорватский, греческий и каталонский. После аннотации создается набор данных, который затем используется для дообучения меньших моделей, основанных на BERT, которые будут служить моделями-учениками.

Автоматическая аннотация данных

Автоматическая аннотация выполняется с использованием модели GPT-4o, которая демонстрирует высокую производительность в нулевом режиме. Мы аннотируем 29,000 текстов, разделенных на обучающие и тестовые наборы, что позволяет нам оценить качество аннотации и производительность моделей.

Эксперименты по дообучению

В рамках экспериментов мы дообучаем модели XLM-RoBERTa на аннотированных данных и оцениваем их производительность на тестовом наборе. Мы исследуем влияние размера обучающего набора на производительность модели, а также ее способности в монолингвальных, многоязычных и кросс-язычных сценариях.

Результаты

Качество аннотации

Результаты показывают, что модель GPT-4o достигает высоких значений по метрикам F1, что указывает на сопоставимое качество аннотации с человеческими аннотаторами. Это подтверждает возможность использования LLM для автоматической аннотации данных без значительных потерь в качестве.

Производительность моделей-учеников

Модели-ученики, дообученные на аннотированных данных, показывают высокую производительность, сопоставимую с моделью-учителем, особенно при использовании 15,000 или более аннотированных примеров. Это демонстрирует эффективность подхода "учитель-ученик" для создания многоязычных классификаторов новостей.

Кросс-языковые способности

Модели-ученики также продемонстрировали высокие способности нулевой передачи, что указывает на их способность классифицировать тексты на языках, для которых они не были непосредственно обучены. Это открывает новые возможности для применения модели в многоязычных контекстах.

Заключение

В данной статье мы представили новый подход к классификации новостей, основанный на модели "учитель-ученик" с использованием LLM. Результаты наших экспериментов показывают, что автоматическая аннотация данных с помощью LLM может обеспечить качество, сопоставимое с ручной аннотацией, при этом значительно снижая затраты и время, необходимые для создания обучающих наборов данных. Мы надеемся, что наш метод будет полезен для дальнейших исследований в области многоязычной обработки естественного языка и классификации текстов.

Статья на arxiv Оригинал pdf annotation modeling multilingual

Ай Дайджест