Свежая выжимка ml и AI статей - каждый день
С развитием больших языковых моделей (LLMs) возникли новые возможности и вызовы в их применении. Несмотря на значительные успехи, такие модели все еще сталкиваются с проблемами надежности и стабильности, что ограничивает их использование в критически важных сценариях, где требуется высокая вероятность успешного решения задач. В этой статье рассматривается новая двухступенчатая алгоритмическая модель, которая обеспечивает доказуемый закон масштабирования вычислений в тестовом времени для LLM.
Основная цель данной работы заключается в разработке алгоритма, который позволяет увеличить вероятность успешного решения задачи, увеличивая объем вычислений, затрачиваемых на вывод LLM. Мы предлагаем двухступенчатый алгоритм, который включает в себя:
Важным аспектом является использование только черного ящика LLM без дополнительных внешних проверяющих или моделей вознаграждений.
На первом этапе алгоритм генерирует N независимых кандидатных решений, используя LLM. Каждое из этих решений должно содержать процесс рассуждения, который помогает объяснить, как было получено окончательное решение. Это особенно важно для задач, где ответ состоит из нескольких токенов, таких как задачи множественного выбора или математические вычисления.
На втором этапе алгоритм агрегирует кандидатные решения через турнир. Кандидаты группируются в пары, и каждую пару сравнивают K раз. Победитель каждой пары переходит в следующий раунд. Такой подход позволяет эффективно отсеивать менее удачные решения и повышает вероятность выбора правильного ответа.
Мы доказали, что вероятность ошибки в выводе алгоритма уменьшается до нуля экспоненциально с увеличением N и K. Это означает, что при достаточном количестве вычислений можно достичь практически 100% вероятности успешного решения задачи.
Для доказательства теоремы о масштабировании алгоритма мы сделали два ключевых предположения:
Эти предположения подтверждаются эмпирическими данными, полученными на сложном бенчмарке MMLU-Pro.
Мы провели эксперименты с использованием бенчмарка MMLU-Pro, который включает 14 категорий задач множественного выбора. Результаты показали, что точность алгоритма значительно увеличивается при увеличении параметров N и K. Например, в категориях, требующих сложного рассуждения, таких как математика и инженерия, улучшения были более выраженными, чем в категориях, основанных на запоминании.
В процессе экспериментов мы оценили вероятности ( p_{gen} ) и ( p_{comp} ) для каждой задачи. Это позволило понять, как алгоритм работает в условиях, когда вероятность генерации правильного решения невысока, но LLM все же может успешно различать правильные и неправильные решения.
Несмотря на успешные результаты, работа все еще находится на стадии разработки. Мы обсудим несколько аспектов, которые требуют дальнейшего изучения:
Предположение о том, что LLM может генерировать правильные решения с ненулевой вероятностью, является минимальным. Важно отметить, что LLM часто легче обнаруживает ошибки в неправильных решениях, когда они представлены рядом с правильными.
Для сложных задач, которые не удовлетворяют предположению 1, можно использовать метод декомпозиции задач. Это означает, что задачу можно разбить на несколько подзадач, каждая из которых может быть решена с использованием предложенного алгоритма.
Предложенный алгоритм может быть улучшен различными способами, включая увеличение разнообразия начальных кандидатных решений и использование более сложных методов сравнения. Также возможно создание "временного" варианта алгоритма, который адаптируется к доступным вычислительным ресурсам.
Предложенная двухступенчатая модель предоставляет эффективный способ увеличения вероятности успешного решения задач с использованием LLM, опираясь на теоретические гарантии и эмпирические результаты. Это открывает новые горизонты для применения LLM в сложных и критически важных сценариях, где надежность и точность имеют первостепенное значение.