Ай Дайджест - категория scoring

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

2024-11-26taxonomy benchmark embedding

Погружение в документы: Последствия масштабирования вывода переоценщиков

Переранжировщики, обычно кросс-энкодеры, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, несмотря на свою высокую стоимость, считается, что переранжировщики более эффективны. Мы ставим под сомнение это предположение, измеряя эффективность переранжировщиков при полном извлечении документов, а не только при повторной оценке результатов первого этапа поиска. Наши эксперименты выявили неожиданную тенденцию: лучшие существующие переранжировщики дают убывающую отдачу при оценке все большего числа документов и фактически ухудшают качество после определенного предела. На самом деле, в данном контексте переранжировщики часто присваивают высокие оценки документам, которые не имеют ни лексического, ни семантического совпадения с запросом. Мы надеемся, что наши выводы стимулируют будущие исследования по улучшению переранжирования.

2024-11-19performance overlap reranker