Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Простая и доказуемая законопроектная модель для вычислений в тестовом времени больших языковых моделей

С развитием больших языковых моделей (LLMs) возникли новые возможности и вызовы в их применении. Несмотря на значительные успехи, такие модели все еще сталкиваются с проблемами надежности и стабильности, что ограничивает их использование в критически важных сценариях, где требуется высокая вероятность успешного решения задач. В этой статье рассматривается новая двухступенчатая алгоритмическая модель, которая обеспечивает доказуемый закон масштабирования вычислений в тестовом времени для LLM.

Проблема и формулировка

Основная цель данной работы заключается в разработке алгоритма, который позволяет увеличить вероятность успешного решения задачи, увеличивая объем вычислений, затрачиваемых на вывод LLM. Мы предлагаем двухступенчатый алгоритм, который включает в себя:

  1. Генерация: создание N кандидатных решений, которые могут быть обработаны параллельно.
  2. Нокаут: выбор лучшего решения через турнир с многократными сравнениями.

Важным аспектом является использование только черного ящика LLM без дополнительных внешних проверяющих или моделей вознаграждений.

Двухступенчатый алгоритм

Генерация кандидатов

На первом этапе алгоритм генерирует N независимых кандидатных решений, используя LLM. Каждое из этих решений должно содержать процесс рассуждения, который помогает объяснить, как было получено окончательное решение. Это особенно важно для задач, где ответ состоит из нескольких токенов, таких как задачи множественного выбора или математические вычисления.

Турнирный этап

На втором этапе алгоритм агрегирует кандидатные решения через турнир. Кандидаты группируются в пары, и каждую пару сравнивают K раз. Победитель каждой пары переходит в следующий раунд. Такой подход позволяет эффективно отсеивать менее удачные решения и повышает вероятность выбора правильного ответа.

Теоретические гарантии

Мы доказали, что вероятность ошибки в выводе алгоритма уменьшается до нуля экспоненциально с увеличением N и K. Это означает, что при достаточном количестве вычислений можно достичь практически 100% вероятности успешного решения задачи.

Предположения

Для доказательства теоремы о масштабировании алгоритма мы сделали два ключевых предположения:

  1. LLM может генерировать правильное решение с ненулевой вероятностью ( p_{gen} > 0 ).
  2. При сравнении пары решений, одно из которых правильное, а другое — неправильное, LLM может выбрать правильного победителя с вероятностью ( p_{comp} > 0.5 ).

Эти предположения подтверждаются эмпирическими данными, полученными на сложном бенчмарке MMLU-Pro.

Эмпирические результаты

Мы провели эксперименты с использованием бенчмарка MMLU-Pro, который включает 14 категорий задач множественного выбора. Результаты показали, что точность алгоритма значительно увеличивается при увеличении параметров N и K. Например, в категориях, требующих сложного рассуждения, таких как математика и инженерия, улучшения были более выраженными, чем в категориях, основанных на запоминании.

Оценка вероятностей

В процессе экспериментов мы оценили вероятности ( p_{gen} ) и ( p_{comp} ) для каждой задачи. Это позволило понять, как алгоритм работает в условиях, когда вероятность генерации правильного решения невысока, но LLM все же может успешно различать правильные и неправильные решения.

Обсуждение

Несмотря на успешные результаты, работа все еще находится на стадии разработки. Мы обсудим несколько аспектов, которые требуют дальнейшего изучения:

Обоснования предположения 1

Предположение о том, что LLM может генерировать правильные решения с ненулевой вероятностью, является минимальным. Важно отметить, что LLM часто легче обнаруживает ошибки в неправильных решениях, когда они представлены рядом с правильными.

Решение сложных задач

Для сложных задач, которые не удовлетворяют предположению 1, можно использовать метод декомпозиции задач. Это означает, что задачу можно разбить на несколько подзадач, каждая из которых может быть решена с использованием предложенного алгоритма.

Направление для будущих исследований

Предложенный алгоритм может быть улучшен различными способами, включая увеличение разнообразия начальных кандидатных решений и использование более сложных методов сравнения. Также возможно создание "временного" варианта алгоритма, который адаптируется к доступным вычислительным ресурсам.

Заключение

Предложенная двухступенчатая модель предоставляет эффективный способ увеличения вероятности успешного решения задач с использованием LLM, опираясь на теоретические гарантии и эмпирические результаты. Это открывает новые горизонты для применения LLM в сложных и критически важных сценариях, где надежность и точность имеют первостепенное значение.