Ай Дайджест - категория tournament

Простая и доказуемая законопроектная модель для вычислений в тестовом времени больших языковых моделей

Мы предлагаем общий двухступенчатый алгоритм, который имеет доказанное закон масштабирования для вычислений в тестовом режиме больших языковых моделей (LLM). Учитывая входную задачу, предложенный алгоритм сначала генерирует N кандидатных решений, а затем выбирает лучшее через многократный нокаут-турнир, в котором каждую пару кандидатов сравнивают K раз, и только победители переходят в следующий раунд. В минималистской реализации оба этапа могут быть выполнены с помощью только черного ящика LLM и ничем другим (например, без внешнего проверяющего или модели вознаграждения), и для решения входной задачи требуется всего N*(K + 1) высокопараллелизуемых вызовов LLM. Предполагая, что сгенерированное кандидатное решение верно с вероятностью p_{gen} > 0 и что сравнение между парой правильных и неправильных решений определяет правильного победителя с вероятностью p_{comp} > 0,5 (т.е. лучше, чем случайное угадывание), мы теоретически доказываем, что вероятность неудачи предложенного алгоритма экспоненциально стремится к нулю по отношению к N и K: $P(итоговый вывод неверен) ≤ (1 - p_{gen})^N + ext{ceil}( ext{log}_2 N) e^{-2 K (p_{comp} - 0.5)^2}$. Наши эмпирические результаты с трудным эталоном MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и улучшения от масштабирования его вычислений в тестовом режиме.

2024-12-03parallelization probability benchmark