Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки достигла значительного прогресса, особенно в области аудиогенерации. Однако создание символической музыки, которая бы обладала как долгосрочной структурой, так и выразительностью, остается сложной задачей. В этой статье мы представляем Персеивер S (Segmentation and Scale), новую архитектуру, разработанную для решения этой проблемы путем использования механизмов эффективной сегментации и мультимасштабного внимания. Наш подход улучшает генерацию символической музыки, одновременно обучая модель долгосрочным структурным зависимостям и краткосрочным выразительным деталям.

Основные Концепции и Проблемы

Эффективная Сегментация

Одной из ключевых проблем в генерации музыки является обработка длинных последовательностей. Традиционные методы, такие как Music Transformer, сталкиваются с ограничениями из-за квадратичной сложности механизма внимания. Персеивер AR (Autoregressive) от DeepMind представил новый подход, позволяющий модели обрабатывать контекст длиной до 32,768 токенов, используя механизм кросс-внимания с коротким запросом для доступа к значительно более длинным последовательностям.

Однако, этот подход также вводит проблемы. В частности, маска причинности (causal mask) в Персеивере AR не полностью скрывает токены, которые не должны быть видны во время автогрессивного обучения и генерации, что ухудшает качество генерируемой музыки. Кроме того, использование ультра-длинного контекста как условия приводит к тому, что модель склонна генерировать идентичные или похожие повторяющиеся сегменты, из-за высокой автокорреляции токенов.

Мультимасштабное Внимание

Чтобы решить эти проблемы, мы вводим Персеивер S, который:

Эффективная Сегментация: Мы изменяем способ обработки входных последовательностей, начиная с сегментов с головы последовательности с эффективной маской причинности, и агрессивно увеличиваем длину сегмента до максимальной длины входной последовательности. Это позволяет модели более эффективно учиться генерировать токены в начале последовательности.
Мультимасштабное Внимание: Вводится механизм внимания, который одновременно учитывает как ультра-длинные, так и короткие зависимости. Это достигается путем использования масок различного масштаба на нескольких слоях кросс-внимания, что позволяет модели фокусироваться на различных уровнях контекста одновременно.

Технические Детали

Предобработка Входных Последовательностей

Пусть полная последовательность будет (X = {x_1, x_2, ..., x_l}), где (l) — это общая длина последовательности, (m) — максимальная длина входа, которую модель может обработать за один проход, и (n) — длина запроса. Вместо случайного выбора фиксированной длины сегмента, мы выбираем конечную точку для обрезки между (n + 1) и (l + 1), затем берем сегмент длиной до (m) назад от этой точки. Это обеспечивает, что модель может эффективно учиться генерировать токены с начала последовательности.

Механизм Мультимасштабного Внимания

Мы используем два слоя кросс-внимания с различными масками:

Без масштабной маски: Все токены видимы модели.
С масштабной маской: Маскируются токены с 1-го по (m - n)-й, позволяя модели видеть только последние (n) токенов.

Эти маски добавляются к матрице внимания, изменяя вычисление внимания следующим образом:

[ \text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T + M + \hat{M}}{\sqrt{d_k}} \right) V ]

где (M) — это причинная маска, а (\hat{M}) — масштабная маска.

Эксперименты и Результаты

Мы провели эксперименты, используя датасеты Maestro, GiantMIDI и ATEPP, чтобы оценить эффективность Персеивера S. Результаты показали:

Улучшение в сегментации: Модель с эффективной сегментацией демонстрирует значительное улучшение в генерации музыки по сравнению с базовой моделью, особенно в терминах согласованности и разнообразия.
Мультимасштабное внимание: Применение мультимасштабного внимания позволило уменьшить повторяющиеся сегменты и улучшить общее качество генерируемой музыки.

Заключение

Персеивер S представляет собой значительный шаг вперед в генерации символической музыки, объединяя эффективную сегментацию и мультимасштабное внимание для создания музыки, которая обладает как долгосрочной структурой, так и выразительностью. Эта модель открывает новые возможности для создания высококачественной музыки, которая может быть использована в различных приложениях, от обучения до создания новых композиций.

Статья на arxiv Оригинал pdf segmentation expressive attention

Ай Дайджест