Свежая выжимка ml и AI статей - каждый день
Классификация тем новостей является важной задачей в современном мире, где объем информации растет с каждым днем. С помощью автоматической классификации новостей можно улучшить доступ читателей к релевантному контенту, что особенно актуально в условиях многопоточности и многоязычности. В данной статье мы рассматриваем новый подход, основанный на модели "учитель-ученик" с использованием крупных языковых моделей (LLM), который позволяет создавать многоязычные модели классификации новостей без необходимости ручной аннотации данных.
Существующие методы классификации новостей сталкиваются с несколькими проблемами, включая нехватку вручную аннотированных данных, особенно для языков, отличных от английского. Ручная аннотация данных является дорогостоящим и трудоемким процессом, что делает его неэффективным для масштабирования на миллионы текстов. В рамках нашего исследования мы ставим перед собой несколько ключевых вопросов:
Мы предлагаем использовать модель GPT в качестве модели-учителя для автоматической аннотации новостей. Эта модель будет аннотировать статьи на нескольких языках, включая словенский, хорватский, греческий и каталонский. После аннотации создается набор данных, который затем используется для дообучения меньших моделей, основанных на BERT, которые будут служить моделями-учениками.
Автоматическая аннотация выполняется с использованием модели GPT-4o, которая демонстрирует высокую производительность в нулевом режиме. Мы аннотируем 29,000 текстов, разделенных на обучающие и тестовые наборы, что позволяет нам оценить качество аннотации и производительность моделей.
В рамках экспериментов мы дообучаем модели XLM-RoBERTa на аннотированных данных и оцениваем их производительность на тестовом наборе. Мы исследуем влияние размера обучающего набора на производительность модели, а также ее способности в монолингвальных, многоязычных и кросс-язычных сценариях.
Результаты показывают, что модель GPT-4o достигает высоких значений по метрикам F1, что указывает на сопоставимое качество аннотации с человеческими аннотаторами. Это подтверждает возможность использования LLM для автоматической аннотации данных без значительных потерь в качестве.
Модели-ученики, дообученные на аннотированных данных, показывают высокую производительность, сопоставимую с моделью-учителем, особенно при использовании 15,000 или более аннотированных примеров. Это демонстрирует эффективность подхода "учитель-ученик" для создания многоязычных классификаторов новостей.
Модели-ученики также продемонстрировали высокие способности нулевой передачи, что указывает на их способность классифицировать тексты на языках, для которых они не были непосредственно обучены. Это открывает новые возможности для применения модели в многоязычных контекстах.
В данной статье мы представили новый подход к классификации новостей, основанный на модели "учитель-ученик" с использованием LLM. Результаты наших экспериментов показывают, что автоматическая аннотация данных с помощью LLM может обеспечить качество, сопоставимое с ручной аннотацией, при этом значительно снижая затраты и время, необходимые для создания обучающих наборов данных. Мы надеемся, что наш метод будет полезен для дальнейших исследований в области многоязычной обработки естественного языка и классификации текстов.