Ай Дайджест - категория gradients

GR,EA,T,ER: Как градиенты и reasoning улучшают производительность малых языковых моделей

Эффективность больших языковых моделей (LLMs) тесно связана с разработкой подсказок, что делает оптимизацию подсказок важной для повышения их производительности по широкому спектру задач. Многие существующие подходы к автоматизации проектирования подсказок полагаются исключительно на текстовую обратную связь, уточняя подсказки исключительно на основе ошибок вывода, выявленных большими, дорогостоящими вычислительными LLMs. К сожалению, более мелкие модели сталкиваются с трудностями при генерации качественной обратной связи, что приводит к полной зависимости от суждений крупных LLM. Более того, эти методы не используют более прямую и тонкую информацию, такую как градиенты, из-за работы исключительно в текстовом пространстве. С этой целью мы представляем GReaTer, новую технику оптимизации подсказок, которая непосредственно учитывает информацию о градиентах для специфического для задач рассуждения. Используя градиенты потерь задач, GReaTer позволяет самостоятельную оптимизацию подсказок для моделей языка с открытым исходным кодом и легковесных без необходимости в дорогостоящих закрытых LLM. Это позволяет производить высокопроизводительную оптимизацию подсказок без зависимости от массивных LLM, уменьшая разрыв между более мелкими моделями и сложным рассуждением, часто необходимым для доработки подсказок. Обширные оценки по различным задачам рассуждения, включая BBH, GSM8k и FOLIO, показывают, что GReaTer последовательно превосходит предыдущие передовые методы оптимизации подсказок, даже те, которые полагаются на мощные LLM. Дополнительно, подсказки, оптимизированные с помощью GReaTer, часто демонстрируют лучшую передаваемость и, в некоторых случаях, увеличивают производительность задач до уровней, сравнимых с или превышающих те, которые достигаются более крупными языковыми моделями, подчеркивая эффективность оптимизации подсказок, направленной на градиенты в процессе рассуждения. Код GReaTer доступен по адресу https://github.com/psunlpgroup/GreaTer.

2024-12-16reasoning prompts feedback