Свежая выжимка ml и AI статей - каждый день
Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, открывая множество новых приложений, таких как помощь в кодировании на уровне репозитория, анализ нескольких документов и автономные агенты. Однако, несмотря на эти достижения, LLMs все еще испытывают трудности с рассуждением в длинных контекстах, где требуется извлечение ключевых деталей и интеграция рассеянной информации на протяжении всего процесса рассуждения.
Существующие подходы к улучшению длинноконтекстного рассуждения в основном полагаются на тонкую настройку моделей с использованием синтетических данных, которые часто зависят от аннотаций, сделанных людьми или продвинутыми моделями, такими как GPT-4. Такой подход ограничивает дальнейшее развитие, поскольку требует значительных ресурсов и не всегда может обеспечить качественное улучшение.
Мы исследуем потенциал LLMs для самоусовершенствования в длинноконтекстном рассуждении и предлагаем метод под названием SEALONG (Self-improving method for rEasoning over LONG-contexts). Этот подход прост и включает следующие шаги:
Эксперименты на нескольких ведущих LLMs показали, что SEALONG значительно улучшает производительность моделей. Например, абсолютное улучшение на 4.2 пункта для Llama-3.1-8B-Instruct. SEALONG также превосходит предыдущие подходы, которые полагались на данные, созданные людьми или продвинутыми моделями.
Мы исследовали различные стратегии подсказок для длинноконтекстного рассуждения:
Эти стратегии показали, что правильно сформулированные подсказки могут значительно улучшить результаты рассуждения в длинных контекстах.
Мы также исследовали потенциал LLMs для корректного длинноконтекстного рассуждения путем расширения пространства генерации. Используя температурное сэмплирование для производства множественных выходов и оценки их с помощью SubEM, мы обнаружили значительный разрыв между оптимальными ответами и теми, что получены жадным поиском. Это указывает на неиспользованный потенциал LLMs в этой области.
SEALONG начинается с использования стратегии "plan-and-solve" для сэмплирования множественных траекторий рассуждения для каждого вопроса. Основная проблема заключается в оценке этих выходов. Мы предполагаем, что корректные траектории рассуждения обычно проявляют более высокую семантическую согласованность. Мы формализуем эту идею с помощью Minimum Bayes Risk (MBR), который приоритизирует выходы, демонстрирующие большую согласованность с другими.
На основе само-супервизии мы можем либо провести супервизированную тонкую настройку на лучших выходах, либо применить оптимизацию предпочтений, используя пары предпочтений, созданные на основе сравнения высоких и низких оценок.
SEALONG демонстрирует, что LLMs могут самоусовершенствоваться в длинноконтекстном рассуждении без необходимости в аннотациях от людей или продвинутых моделей. Это открывает новые пути для развития LLMs, делая их более автономными и способными к непрерывному улучшению. Мы надеемся, что эта работа будет стимулировать дальнейшие исследования в области самоусовершенствования и расширения возможностей LLMs в обработке длинных контекстов.