ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

С развитием больших языковых моделей (LLM) и многомодальных моделей (LMM) возникла необходимость в более гибких и адаптивных способах оценки их производительности. Традиционные методы тестирования, основанные на фиксированных наборах данных, не способны адекватно оценивать открытые возможности этих моделей. В ответ на эту проблему был предложен новый подход под названием ONEBench (Open-ended Benchmarking), который предлагает динамическую оценку моделей на основе индивидуальных аннотированных образцов данных.

ONEBench: Формулировка

Основная идея ONEBench заключается в создании единого, постоянно расширяемого пула образцов для оценки моделей. Этот пул позволяет пользователям формировать свои собственные наборы тестов, ориентированные на конкретные способности моделей. Важно, что ONEBench позволяет агрегировать и повторно использовать образцы из различных тестовых наборов, что способствует более полной оценке возможностей моделей и снижению риска переобучения и смещения данных.

Основные компоненты ONEBench

Пул данных (D): Это упорядоченная коллекция тестовых данных, состоящая из аннотированных образцов, которые могут быть получены из различных наборов данных. Каждый образец включает в себя вопрос и соответствующий ответ, а также метаданные, описывающие тестируемые способности.
Модели (M): Набор моделей, производительность которых оценивается относительно базовой модели. Это позволяет сравнивать различные модели по их способности решать определенные задачи.
Уровни ранжирования (S): Для каждого образца данных создается уровень ранжирования, который представляет собой ординальное ранжирование моделей на основе их производительности на конкретном образце.
Способности (C): Модели могут быть оценены по различным способностям, которые могут быть определены пользователями через запросы.

Агрегация в ONEBench: Теория и Практика

Теоретические основы

Агрегация данных в ONEBench осуществляется с использованием теории социального выбора, где образцы данных рассматриваются как "избиратели", а модели — как "кандидаты". При этом применяется модель Плакета-Люса, которая позволяет эффективно агрегировать разрозненные и неполные данные, обеспечивая надежные оценки производительности моделей.

Практическое применение

ONEBench предоставляет возможность динамической генерации тестов, которые соответствуют конкретным запросам пользователей. Система сначала выбирает образцы данных, соответствующие запросу, а затем агрегирует уровни ранжирования для получения общего ранжирования моделей. Это позволяет пользователям получать целевые оценки производительности моделей в зависимости от их специфических потребностей.

Создание ONEBench: ONEBench-LLM и ONEBench-LMM

ONEBench включает два основных компонента:

ONEBench-LLM: Этот компонент ориентирован на языковые модели и использует данные из различных источников, таких как OpenLLMLeaderboard и HELM. Он агрегирует результаты различных тестов, чтобы предоставить пользователям полное представление о производительности моделей.
ONEBench-LMM: Этот компонент предназначен для многомодальных моделей и использует данные из VHELM и LMMs-Eval. Он объединяет результаты из различных источников, чтобы оценить производительность моделей в контексте различных задач.

Персонализированная агрегация

ONEBench позволяет пользователям формировать персонализированные запросы, которые могут включать различные критерии для оценки моделей. Например, исследователь в области биохимии может задать запрос, связанный с иммунологией, и получить ранжирование моделей, основанное на их производительности в этой конкретной области.

Заключение и Открытые Проблемы

ONEBench представляет собой значительный шаг вперед в области оценки моделей искусственного интеллекта. Его способность адаптироваться к открытым возможностям моделей и динамически формировать тесты позволяет более точно оценивать их производительность. Однако существуют и открытые проблемы, такие как необходимость в расширении пула данных и исследовании других алгоритмов агрегации, что может значительно улучшить эффективность ONEBench.

ONEBench демонстрирует потенциал для создания более инклюзивной и адаптивной системы оценки, которая может удовлетворить потребности различных пользователей и исследователей в rapidly evolving landscape of AI.

Статья на arxiv Оригинал pdf algorithms capabilities evaluation

Ай Дайджест