Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP
Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.