Ай Дайджест - категория ranking

JuStRank: Оценка LLM-судей для ранжирования систем

Учитывая быстрый прогресс генеративного ИИ, существует настоятельная необходимость систематически сравнивать и выбирать между многочисленными моделями и конфигурациями. Масштаб и универсальность таких оценок делают использование судей на основе больших языковых моделей (LLM) убедительным решением для этой задачи. Ключевым моментом в этом подходе является необходимость сначала проверить качество самого судьи LLM. Предыдущие работы сосредотачивались на оценке судей LLM на основе конкретных примеров, где судья оценивается по набору ответов или парам ответов, оставаясь при этом нейтральным к их исходным системам. Мы утверждаем, что эта обстановка упускает из виду критически важные факторы, влияющие на ранжирование на уровне системы, такие как положительная или отрицательная предвзятость судьи к определённым системам. Чтобы устранить этот пробел, мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Баллы системы генерируются путем агрегирования оценок судей по нескольким выводам системы, а качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием, основанным на мнении человека. Кроме общей оценки судьи, наш анализ предоставляет детализированную характеристику поведения судьи, включая их решительность и предвзятость.

2024-12-13assessment bias llm

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

2024-11-26evaluation embedding taxonomy