Меньшие языковые модели лучше эволюционеров инструкций

В последние годы большие языковые модели (LLMs) продемонстрировали выдающиеся результаты в различных задачах обработки естественного языка (NLP). Одним из ключевых факторов, способствующих их успеху, является качественные данные для настройки инструкций, которые играют важную роль в улучшении их эффективности в качестве AI-ассистентов. В частности, внедрение более сложных и разнообразных инструкций позволяет моделям лучше адаптироваться к различным доменам и задачам, что повышает их производительность в различных приложениях. Однако создание таких разнообразных инструкций остается трудоемким и времязатратным процессом, что представляет собой значительную проблему для автоматизированного и масштабируемого выравнивания LLMs.

Недавние исследования начали использовать LLMs для автоматической эволюции инструкций. Например, работа Self-Instruct использует небольшое количество исходных инструкций и мощную модель супервизии для получения большого числа синтетических инструкций. Evol-Instruct, в свою очередь, уточняет и развивает существующие инструкции для создания более сложных вариантов. Тем не менее, большинство предыдущих исследований в основном ориентированы на использование мощных LLMs, таких как GPT-4, предполагая, что более крупные языковые модели обладают лучшими способностями к эволюции инструкций. Однако действительно ли это так?

В данной статье мы ставим под сомнение это предположение и проводим глубокое исследование потенциала меньших языковых моделей (SLMs) в контексте эволюции инструкций. Мы проводим обширные эксперименты в трех сценариях эволюции инструкций и обнаруживаем, что SLMs могут синтезировать более эффективные инструкции, чем LLMs. Дальнейший анализ показывает, что SLMs имеют более широкое пространство вывода во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам.

Основные исследования

Исследовательские вопросы

В нашем исследовании мы сосредоточились на следующих ключевых вопросах:

RQ1: Превосходят ли SLMs LLMs в эволюции инструкций?
RQ2: Почему SLMs превосходят LLMs в эволюции инструкций?
RQ3: Как мы можем определить, эффективна ли инструкция без настройки инструкций?

Экспериментальные сценарии

Мы провели эксперименты в трех сценариях:

Evol-Instruct: Целью этого сценария является выяснение, могут ли SLMs развивать более сложные и трудные данные инструкций по сравнению с LLMs.
AutoIF: Этот сценарий сосредоточен на том, могут ли SLMs генерировать более разнообразные данные инструкций по сравнению с LLMs.
Auto Evol-Instruct: Здесь мы исследуем, могут ли SLMs автоматически развивать более эффективные инструкции по сравнению с LLMs.

Сравнительный анализ

В каждом из сценариев мы использовали модели различного размера из семейств Llama и Qwen для эволюции и синтеза новых инструкций. Результаты наших экспериментов показывают, что SLMs consistently outperform LLMs в эволюции эффективных инструкций и могут даже создавать более сложные и разнообразные инструкции.

Почему SLMs превосходят LLMs?

Широкое пространство вывода

Одной из причин, по которой SLMs показывают лучшие результаты, является их способность генерировать более широкий диапазон токенов во время эволюции инструкций. В то время как LLMs, обладая более высокими способностями к следованию инструкциям, склонны генерировать более высокую долю токенов с высокой вероятностью, это приводит к более узкому пространству вывода. В отличие от этого, SLMs могут генерировать более разнообразные токены, что приводит к более сложным и разнообразным инструкциям.

Метрики оценки

Существующие метрики, такие как IFD (Instruction Following Difficulty), часто не учитывают влияние самих инструкций на качество выводов, что может привести к недооценке их эффективности. Мы предлагаем новую метрику, IC-IFD (Instruction Complex-Aware IFD), которая вводит сложность инструкции в исходный IFD, что позволяет более точно оценивать эффективность данных инструкций без необходимости в их настройке.

Заключение

В данной статье мы провели сравнительный анализ производительности SLMs и LLMs в эволюции инструкций. Результаты показали, что SLMs могут синтезировать более эффективные инструкции при меньших вычислительных затратах. Более того, SLMs демонстрируют более широкое пространство вывода, что приводит к созданию более сложных и разнообразных инструкций. Мы также представили новую метрику для оценки эффективности данных инструкций, что открывает новые горизонты для дальнейших исследований в этой области.

Перспективы дальнейших исследований

Несмотря на то, что наши результаты предоставляют ценную информацию о производительности SLMs в эволюции инструкций, есть несколько направлений, которые стоит исследовать в будущем. Во-первых, мы сосредоточились на сравнении SLMs и LLMs в определенных областях, таких как следование инструкциям и математическое reasoning. Исследование других доменов может привести к интересным открытиям. Во-вторых, дальнейшие исследования могут сосредоточиться на полном потенциале SLMs в синтезе целых наборов инструкций.

Таким образом, наше исследование открывает новые возможности для использования меньших языковых моделей в контексте эволюции инструкций, что может привести к более эффективным и масштабируемым решениям в области обработки естественного языка.

Статья на arxiv Оригинал pdf evaluation complexity models

Ай Дайджест