Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLM) демонстрируют впечатляющие способности в решении простых научных задач, но часто сталкиваются с проблемами "галлюцинаций" при работе с более сложными вопросами. Интеграция LLM с инструментами может повысить надежность, однако это часто приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность проблемы с помощью доменной знания, прежде чем выбрать подходящий метод решения.

Вдохновленные этим процессом решения проблем человеком, мы предлагаем новый метод тонкой настройки, состоящий из двух компонентов. В первом компоненте, World Knowledge Distillation (WKD), LLM обучаются непосредственно из решений, сгенерированных с использованием информации от инструментов, чтобы внутренизировать доменное знание. Во втором компоненте, Tool Usage Adaptation (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямых ответов модели. При сохранении той же цели выравнивания для простых задач, как в WKD, мы обучаем модель умно переключаться на использование инструментов для более сложных проблем.

Мы проверяем наш метод на шести научных бенчмарках, охватывающих математику, климатическую науку и эпидемиологию. В среднем, наши модели показывают улучшение точности ответов на 28.18% и увеличение точности использования инструментов на 13.89% по всем наборам данных, превосходя модели, включая GPT-4o и Claude-3.5.

Методология

Генерация решений с помощью инструментов

Наш подход интегрирует профессиональные инструменты (E) с LLM для генерации высокоточных ответов. Мы используем шаблоны для вопросов и соответствующих трасс инструментов (t) для генерации решений. На каждом шаге в t мы инструктируем LLM запустить симулятор, используя специфический формат, т.е. системный промпт (P_f), который инструктирует и заставляет использовать инструменты. После сбора возвращенной информации {I_e}_t от трасс инструментов t, LLM генерирует решение y, используя свою политику π в сочетании с контекстом, предоставленным в вопросе x.

World Knowledge Distillation (WKD)

После генерации этих решений, мы переходим к прямой тонкой настройке целевой LLM. Потери выравнивания между сгенерированным ответом и (1) определяются следующим образом:

[ J_{Direct}(\theta, D, P) = -E_{x \sim D, y \sim \pi(\cdot | x, {I_e}t, P_f)}[log \pi\theta(y | x, P)] ]

где D представляет обучающий набор данных. Потери для WKD затем определяются как:

[ J_{WKD}(\theta, D) = J_{Direct}(\theta, D, P_n) ]

где P_n - это промпт, который не позволяет использовать инструменты. Цель WKD - заставить LLM генерировать решения напрямую, без опоры на инструменты.

Tool Usage Adaptation (TUA)

TUA начинается с оценки тонко настроенных LLM после WKD на вопросах бенчмарка. Для каждого вопроса мы отбираем ансамбль прямых ответов для расчета точности. На основе предопределенного порога точности мы разделяем вопросы на две подмножества: D_easy - проблемы, которые LLM может решить напрямую, и D_hard - остальные.

Для D_easy мы сохраняем цель выравнивания, как в (2). Однако для D_hard мы переключаем цель выравнивания на дополненное решение с трассами использования инструментов и обучаем LLM следовать этим трассам точно. В этом случае потери выравнивания для правильных трасс определяются как:

[ J_{Trace}(\theta, D, P) = -E_{x \sim D, t \sim \pi(\cdot | x, E, P_f)}[log \pi_\theta(t | x, E, P)] ]

Объединенные потери обучения, учитывающие как простые, так и сложные вопросы, определяются как:

[ J_{TUA}(\theta, D_{easy}, D_{hard}) = \lambda J_{Direct}(\theta, D_{easy}, P_i) + (1 - \lambda) J_{Trace}(\theta, D_{hard}, P_i) ]

где P_i - это промпт, который позволяет LLM умно выбирать, использовать ли внешние инструменты или нет. λ регулирует вес между двумя подмножествами для предотвращения экстремального распределения пропорций.

Согласованность знаний между стратегиями промптов

В наших настройках определенные знания, необходимые для прямого ответа на вопросы, должны быть изучены под обеими стратегиями промптов: P_n во время WKD и P_i во время TUA и во время развертывания. Недавние исследования (Zeng et al., 2024) выявили критическую проблему: знания, полученные под одной стратегией промптов, могут не легко переноситься на другую, часто приводя к значительному снижению производительности. Мы столкнулись с подобными проблемами в наших предварительных экспериментах при попытке чередовать WKD и TUA в рамках итераций обучения.

Чтобы смягчить эту проблему, мы предлагаем использовать смешанные потери, которые одновременно учитывают как цели WKD, так и TUA, тем самым поддерживая согласованность знаний между различными стратегиями промптов. Для каждой эпохи мы сначала разделяем набор данных на простые и сложные вопросы, следуя процедуре, описанной в разделе 3.3. Смешанная функция потерь определяется как:

[ J_{Mix}(\theta, D, D_{easy}, D_{hard}) = \alpha J_{WKD}(\theta, D) + (1 - \alpha) J_{TUA}(\theta, D_{easy}, D_{hard}) ]

где α - это гиперпараметр, который уравновешивает обучение под P_n и P_i. В наших экспериментах мы постоянно устанавливали α = 0.5.