Свежая выжимка ml и AI статей - каждый день
Онлайн-токсичность, включая ненавистные, оскорбительные и иные вредные высказывания, представляет собой серьезную проблему в цифровом пространстве. Эти виды речи могут вызывать беспокойство у читателей и приводить к отказу от участия в обсуждениях. Социальные платформы применяют различные меры модерации, включая удаление контента и пользователей, а также вмешательства, направленные на снижение токсичности. В качестве альтернативы централизованной модерации возникает концепция социальной коррекции, известной как контрречь, где пользователи активно реагируют на токсичный контент, способствуя уважительному и конструктивному общению.
Однако, несмотря на обнадеживающие результаты, контрречь сталкивается с рядом проблем, включая эмоциональное бремя на ответчиков и угрозу мести. В связи с этим автоматизированные системы контрречи, использующие генеративные технологии ИИ, такие как большие языковые модели (LLM), становятся все более актуальными. Тем не менее, текущие системы контрречи часто применяют универсальный подход, который не учитывает контекст модерации и особенности пользователей.
В данной статье мы рассматриваем использование LLM для генерации адаптированной и персонализированной контрречи, которая учитывает контекст модерации и характеристики пользователя. Мы исследуем различные стратегии адаптации и персонализации, а также оцениваем их эффективность.
Для генерации контрречи мы рассматриваем онлайн-обсуждение как последовательность сообщений, где каждое сообщение может содержать токсичный контент. Наша цель заключается в создании контрречи, которая будет учитывать контекст, в котором она генерируется. Это означает, что контрречь должна не только реагировать на токсичное сообщение, но и учитывать предшествующие сообщения в обсуждении, а также характеристики пользователя, который его опубликовал.
Эффективная контрречь должна обладать следующими свойствами:
Дополнительно, контекстуализированная контрречь должна учитывать:
Для генерации контрречи мы используем модель LLaMA2-13B, настроенную на создание ответов на токсичные сообщения. Мы исследуем различные конфигурации, основанные на информации, предоставленной модели, и данных, используемых для дообучения.
Некоторые факторы, которые мы рассматриваем, включают:
Оценка контрречи включает как алгоритмические, так и человеческие методы. Мы используем набор количественных индикаторов для автоматической оценки свойств сгенерированных сообщений, а затем проводим ручную оценку для выбора наиболее эффективных конфигураций.
Мы применяем несколько индикаторов, таких как:
Мы проводим краудсорсинг-эксперимент, в котором участники оценивают пары токсичных сообщений и контрречи по различным критериям, включая релевантность, адекватность и убедительность.
Результаты алгоритмической оценки показывают, что использование адаптации и персонализации значительно улучшает характеристики контрречи. Например, модели, которые учитывают контекст обсуждения и историю пользователя, продемонстрировали более высокие результаты по релевантности и адекватности.
Результаты человеческой оценки подтвердили, что контекстуализированная контрречь, сгенерированная с учетом адаптации и персонализации, воспринимается как более убедительная и релевантная. Участники оценивали контрречь, основанную на контексте, значительно выше, чем универсальные ответы.
Наше исследование подчеркивает важность контекстуализированной контрречи в борьбе с онлайн-токсичностью. Генерация ответов, учитывающих как контекст, так и индивидуальные характеристики пользователей, значительно повышает их эффективность. Однако существует необходимость в более тонком оценивании, так как алгоритмические индикаторы часто не совпадают с человеческими оценками.
Несмотря на обширные эксперименты, наше исследование ограничено использованием одной модели LLM и ограниченным набором стратегий адаптации и персонализации. Будущие исследования должны сосредоточиться на разработке более сложных моделей и методик, чтобы обеспечить справедливость и беспристрастность AI-сгенерированных ответов.
В заключение, наше исследование указывает на необходимость увеличения сотрудничества между людьми и AI для повышения эффективности модерации контента в онлайн-пространстве.