Направления в детекции аудио-абьюза на разных языках с использованием методов обучения с малым количеством примеров

С ростом популярности социальных медиа и аудио-платформ, таких как Twitter (теперь X), Clubhouse и Discord, необходимость в эффективной модерации контента стала критически важной. Это особенно актуально в многоязычных странах, таких как Индия, где пользователи общаются на более чем 30 языках. В данной статье рассматривается использование предварительно обученных моделей для детекции абьюзного языка в аудио-контенте, особенно в условиях ограниченных ресурсов, используя метод обучения с малым количеством примеров (Few-Shot Learning, FSL).

Проблема детекции абьюза в аудио

Детекция абьюзного контента в аудио остается недостаточно исследованной областью, несмотря на значительные достижения в текстовой модерации. Традиционные методы, такие как автоматическое распознавание речи (ASR), не всегда эффективны, так как абьюзные слова могут произноситься нечетко или с искажением. Это создает сложности для существующих текстовых моделей, которые не могут точно распознавать и классифицировать абьюзный контент.

Использование предварительно обученных моделей

В исследовании используется два мощных инструмента: Wav2Vec и Whisper. Оба являются предварительно обученными моделями, которые обеспечивают высококачественные аудио-репрезентации. Wav2Vec 2.0, например, использует самообучение для извлечения представлений речи из сырых звуковых данных, что делает его особенно полезным для задач, связанных с многими языками.

Модель Agnostic Meta-Learning (MAML)

MAML представляет собой подход к обучению, который позволяет моделям быстро адаптироваться к новым задачам с минимальным количеством данных. Это критически важно в условиях, когда ресурсов для обучения может быть недостаточно. В данной работе MAML используется для создания классификатора, способного распознавать абьюзный контент на различных языках, используя предварительно обученные аудио-репрезентации.

Методология

Извлечение признаков

Для извлечения признаков используются предварительно обученные модели Wav2Vec и Whisper. Извлеченные аудио-признаки нормализуются с использованием двух стратегий: L2-нормализация и временное среднее. Это позволяет улучшить качество классификации, так как нормализация помогает модели лучше справляться с вариациями в данных.

Обучение модели

Обучение модели включает в себя создание поддерживающего набора данных, который содержит равное количество примеров абьюзного и неабьюзного контента. Это позволяет модели учиться на сбалансированном наборе данных, что критически важно для достижения высоких показателей точности.

Кросс-языковое обучение

Кросс-языковое обучение позволяет модели обобщать информацию о абьюзном языке, извлекая общие паттерны из различных языков. Это особенно полезно в условиях ограниченных ресурсов, когда данные для конкретного языка могут быть ограничены.

Результаты

Оценка точности

Эксперименты показывают, что использование L2-нормализации в сочетании с предварительно обученными моделями Whisper дает наилучшие результаты по точности. Для различных языков, таких как Хинди и Панджаби, точность классификации достигает 85% и выше при использовании 100 примеров для обучения.

Визуализация признаков

Визуализация извлеченных признаков с помощью t-SNE показывает, что языки группируются в кластеры, что указывает на наличие языковых схожестей. Это подтверждает, что предварительно обученные модели способны захватывать ключевые акустические характеристики, которые могут помочь в кросс-языковой детекции.

Заключение

Работа подчеркивает важность использования предварительно обученных моделей и методов обучения с малым количеством примеров для решения задач детекции абьюзного контента в аудио. Результаты показывают, что такие подходы могут значительно улучшить качество классификации, даже в условиях ограниченных ресурсов. Будущие исследования могут сосредоточиться на расширении методов на другие языки и применение других алгоритмов мета-обучения для дальнейшего улучшения результатов.

Статья на arxiv Оригинал pdf abuse generalization detection

Ай Дайджест