От судейства к оценке: возможности и вызовы LLM как судьи
Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.