ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта
Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.