KV-Shifting Attention: Новая Эра в Языковом Моделировании

Современные большие языковые модели (LLM), основанные на архитектуре трансформеров, продемонстрировали выдающиеся способности в контекстном обучении (ICL). Эти способности во многом объясняются механизмом индукционных голов (induction heads), который позволяет моделям выявлять и использовать повторяющиеся паттерны в данных. Однако, несмотря на успехи, существующие трансформеры часто требуют значительной глубины и ширины для эффективного обучения индукционным головам. В этой статье мы представим концепцию KV-shifting attention, которая упрощает и улучшает процесс индукции, снижая требования к структуре модели.

Механизм индукционных голов

Что такое индукционные головы?

Индукционные головы — это специальные механизмы внимания, позволяющие моделям находить последние совпадения текущего токена с предыдущими токенами. Это достигается путем использования информации о токенах, которые предшествовали текущему, для предсказания следующего токена. Например, при обработке последовательности [A][B]...,[A] → [B], индукционная голова помогает модели понять, что токен B следует за токеном A.

Для реализации механизма индукционных голов обычно требуется как минимум два слоя внимания. Это связано с тем, что стандартные механизмы внимания в трансформерах не могут эффективно выполнять задачи индукции в однолинейной структуре.

Виртуальные головы внимания

Концепция виртуальных голов внимания, предложенная в предыдущих исследованиях, демонстрирует, как разные слои внимания могут взаимодействовать друг с другом. Это взаимодействие позволяет моделям достигать сложных функций, комбинируя простые головы внимания. Однако, как показали исследования, использование виртуальных голов не всегда эффективно для индукционных задач.

KV-Shifting Attention

Что такое KV-shifting attention?

KV-shifting attention — это новый подход, который предлагает разделить ключи (keys) и значения (values) в механизме внимания. Это позволяет модели более эффективно извлекать информацию о токенах, сосредоточившись на их соседях, что уменьшает требования к глубине и ширине трансформеров.

Вместо того чтобы использовать комбинацию значений и ключей из разных токенов, KV-shifting attention позволяет текущему токену обращать внимание на ключи соседних токенов и извлекать значения от них. Это позволяет избежать нарушения причинной маски и упрощает архитектуру модели.

Формализация KV-shifting attention

Формально, KV-shifting attention можно представить следующими уравнениями:

Входные данные: [ Q, K, V = XW_Q, XW_K, XW_V ]
Сдвиги ключей и значений: [ \hat{K}, \hat{V} = \alpha_1 K + \alpha_2 \text{Shift}(K), \beta_1 V + \beta_2 \text{Shift}(V) ]
Выход: [ \text{Output} = \text{Softmax}(Q\hat{K}^T \cdot M / \sigma) \hat{V}W_O ]

Здесь ( \alpha_1, \alpha_2, \beta_1, \beta_2 ) — это обучаемые параметры, а (\text{Shift}(\cdot)) обозначает операцию сдвига, которая позволяет игнорировать последний токен и добавлять нули в начало.

Анализ KV-shifting attention

Улучшенная репрезентация индукционных голов

KV-shifting attention снижает требования как к глубине, так и к ширине трансформеров. Это достигается благодаря более эффективному представлению индукционных голов. Мы можем использовать теоремы, которые показывают, что KV-shifting attention может представлять или приближать индукционные головы с меньшими затратами ресурсов.

Эффективность обучения индукционных голов

Эксперименты показали, что модели с KV-shifting attention могут быстрее обучаться индукционным головам по сравнению с традиционными трансформерами. Например, в одном из тестов, модель с одним слоем KV-shifting attention достигла такой же точности, как и двухслойная модель, но с меньшими вычислительными затратами.

Способность к обучению n-грамм

Хотя KV-shifting attention не улучшает способности модели к обучению n-грамм, оно также не ухудшает их. Это подтверждает, что основное внимание KV-shifting attention сосредотачивается на индукции, а не на других аспектах языкового моделирования.

Эксперименты

Настройка экспериментов

Мы провели эксперименты с двумя моделями, обученными с нуля, с параметрами 2.9B и 19B, используя архитектуру, аналогичную Llama2. Эксперименты показывают, что KV-shifting attention превосходит базовые модели по различным метрикам, включая Lambada, Winogrande и другие.

Основные результаты

Результаты экспериментов показали, что модели с KV-shifting attention достигли лучшей производительности по сравнению с базовыми моделями во всех масштабах и при разных количествах обучающих токенов. Это подтверждает, что KV-shifting attention обеспечивает более эффективное и быстрое обучение индукционным головам.

Оценка устойчивости модели

Для проверки устойчивости модели мы провели эксперименты с различными случайными семенами. Результаты показали, что KV-shifting attention стабильно превосходит модели с традиционным вниманием, что указывает на его надежность.

Обсуждение

KV-shifting attention представляет собой значительное улучшение по сравнению с традиционными механизмами внимания, позволяя моделям более эффективно обучаться индукционным головам. Это улучшение может быть связано с тем, что KV-shifting attention уменьшает требования к ширине и глубине модели, что, в свою очередь, упрощает обучение.

Ограничения

Несмотря на успехи, у KV-shifting attention есть свои ограничения. Из-за ограничений вычислительных ресурсов некоторые эксперименты не могут быть повторены несколько раз, что может повлиять на надежность результатов. Кроме того, в более сложных условиях, таких как многослойные трансформеры, обучение индукционным головам все еще остается сложной задачей.

Заключение

В данной работе мы представили KV-shifting attention как новый подход к языковому моделированию, который улучшает способность трансформеров к обучению индукционным головам. Мы провели обширные эксперименты, подтверждающие эффективность нашего метода, и надеемся, что это исследование вдохновит дальнейшие разработки в области языковых моделей.

Статья на arxiv Оригинал pdf learning attention parameters

Ай Дайджест