Проблемы надежной человеческой оценки чат-ботов
Открытые платформы, основанные на сообществе, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей от посещающих сайт, завоевали репутацию одного из самых надежных общественно доступных эталонов для оценки производительности LLM. Хотя на данный момент это стандарт, реализация эффективных ограждений для сбора качественной аннотации от людей является сложной задачей. В этой статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут подорвать надежность открытых рейтингов. В частности, мы показываем, что только 10% аннотаций низкого качества от равнодушных (посетителей сайта, не имеющих адекватных стимулов для правильного голосования) или противников (плохих актеров, стремящихся повысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы, связанные с обеспечением качественных аннотаций людей.