Ай Дайджест - категория toolkit

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

2024-12-17llms feedback evaluation