Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, открывая множество новых приложений, таких как помощь в кодировании на уровне репозитория, анализ нескольких документов и автономные агенты. Однако, несмотря на эти достижения, LLMs все еще испытывают трудности с рассуждением в длинных контекстах, где требуется извлечение ключевых деталей и интеграция рассеянной информации на протяжении всего процесса рассуждения.

Проблема

Существующие подходы к улучшению длинноконтекстного рассуждения в основном полагаются на тонкую настройку моделей с использованием синтетических данных, которые часто зависят от аннотаций, сделанных людьми или продвинутыми моделями, такими как GPT-4. Такой подход ограничивает дальнейшее развитие, поскольку требует значительных ресурсов и не всегда может обеспечить качественное улучшение.

Решение: SEALONG

Мы исследуем потенциал LLMs для самоусовершенствования в длинноконтекстном рассуждении и предлагаем метод под названием SEALONG (Self-improving method for rEasoning over LONG-contexts). Этот подход прост и включает следующие шаги:

Сэмплирование множественных выходов: Для каждого вопроса генерируется несколько возможных ответов.
Оценка с помощью Minimum Bayes Risk (MBR): Выходы оцениваются на основе их согласованности с другими сгенерированными ответами.
Тонкая настройка или оптимизация предпочтений: На основе оцененных выходов проводится либо супервизированная тонкая настройка, либо оптимизация предпочтений.

Эксперименты и результаты

Эксперименты на нескольких ведущих LLMs показали, что SEALONG значительно улучшает производительность моделей. Например, абсолютное улучшение на 4.2 пункта для Llama-3.1-8B-Instruct. SEALONG также превосходит предыдущие подходы, которые полагались на данные, созданные людьми или продвинутыми моделями.

Потенциал LLMs в длинноконтекстном рассуждении

Стратегии подсказок

Мы исследовали различные стратегии подсказок для длинноконтекстного рассуждения:

Default: Простое предоставление контекста и вопроса.
Direct Answer: Запрос на прямой ответ на вопрос на основе контекста.
Think Step-by-step: Инструкция думать шаг за шагом (Kojima et al., 2022).
Fact-and-reflection: Сначала идентификация релевантной информации, затем рассуждение (Zhao et al., 2024b).
Plan-and-solve: Сначала составление плана, затем его выполнение (Wang et al., 2023a).

Эти стратегии показали, что правильно сформулированные подсказки могут значительно улучшить результаты рассуждения в длинных контекстах.

Потенциал для корректного рассуждения

Мы также исследовали потенциал LLMs для корректного длинноконтекстного рассуждения путем расширения пространства генерации. Используя температурное сэмплирование для производства множественных выходов и оценки их с помощью SubEM, мы обнаружили значительный разрыв между оптимальными ответами и теми, что получены жадным поиском. Это указывает на неиспользованный потенциал LLMs в этой области.

SEALONG: Метод самоусовершенствования

Создание само-супервизии

SEALONG начинается с использования стратегии "plan-and-solve" для сэмплирования множественных траекторий рассуждения для каждого вопроса. Основная проблема заключается в оценке этих выходов. Мы предполагаем, что корректные траектории рассуждения обычно проявляют более высокую семантическую согласованность. Мы формализуем эту идею с помощью Minimum Bayes Risk (MBR), который приоритизирует выходы, демонстрирующие большую согласованность с другими.

Тонкая настройка

На основе само-супервизии мы можем либо провести супервизированную тонкую настройку на лучших выходах, либо применить оптимизацию предпочтений, используя пары предпочтений, созданные на основе сравнения высоких и низких оценок.

Супервизированная тонкая настройка: Минимизация отрицательного логарифма вероятности выхода.
Оптимизация предпочтений: Использование алгоритма ORPO (Odds Ratio Preference Optimization), который минимизирует отрицательный логарифм отношения шансов между предпочтительным и менее предпочтительным выходом.

Заключение

SEALONG демонстрирует, что LLMs могут самоусовершенствоваться в длинноконтекстном рассуждении без необходимости в аннотациях от людей или продвинутых моделей. Это открывает новые пути для развития LLMs, делая их более автономными и способными к непрерывному улучшению. Мы надеемся, что эта работа будет стимулировать дальнейшие исследования в области самоусовершенствования и расширения возможностей LLMs в обработке длинных контекстов.

Статья на arxiv Оригинал pdf fine-tuning reasoning model

Ай Дайджест