Свежая выжимка ml и AI статей - каждый день
Генерация музыки достигла значительного прогресса, особенно в области аудиогенерации. Однако создание символической музыки, которая бы обладала как долгосрочной структурой, так и выразительностью, остается сложной задачей. В этой статье мы представляем Персеивер S (Segmentation and Scale), новую архитектуру, разработанную для решения этой проблемы путем использования механизмов эффективной сегментации и мультимасштабного внимания. Наш подход улучшает генерацию символической музыки, одновременно обучая модель долгосрочным структурным зависимостям и краткосрочным выразительным деталям.
Одной из ключевых проблем в генерации музыки является обработка длинных последовательностей. Традиционные методы, такие как Music Transformer, сталкиваются с ограничениями из-за квадратичной сложности механизма внимания. Персеивер AR (Autoregressive) от DeepMind представил новый подход, позволяющий модели обрабатывать контекст длиной до 32,768 токенов, используя механизм кросс-внимания с коротким запросом для доступа к значительно более длинным последовательностям.
Однако, этот подход также вводит проблемы. В частности, маска причинности (causal mask) в Персеивере AR не полностью скрывает токены, которые не должны быть видны во время автогрессивного обучения и генерации, что ухудшает качество генерируемой музыки. Кроме того, использование ультра-длинного контекста как условия приводит к тому, что модель склонна генерировать идентичные или похожие повторяющиеся сегменты, из-за высокой автокорреляции токенов.
Чтобы решить эти проблемы, мы вводим Персеивер S, который:
Эффективная Сегментация: Мы изменяем способ обработки входных последовательностей, начиная с сегментов с головы последовательности с эффективной маской причинности, и агрессивно увеличиваем длину сегмента до максимальной длины входной последовательности. Это позволяет модели более эффективно учиться генерировать токены в начале последовательности.
Мультимасштабное Внимание: Вводится механизм внимания, который одновременно учитывает как ультра-длинные, так и короткие зависимости. Это достигается путем использования масок различного масштаба на нескольких слоях кросс-внимания, что позволяет модели фокусироваться на различных уровнях контекста одновременно.
Пусть полная последовательность будет (X = {x_1, x_2, ..., x_l}), где (l) — это общая длина последовательности, (m) — максимальная длина входа, которую модель может обработать за один проход, и (n) — длина запроса. Вместо случайного выбора фиксированной длины сегмента, мы выбираем конечную точку для обрезки между (n + 1) и (l + 1), затем берем сегмент длиной до (m) назад от этой точки. Это обеспечивает, что модель может эффективно учиться генерировать токены с начала последовательности.
Мы используем два слоя кросс-внимания с различными масками:
Эти маски добавляются к матрице внимания, изменяя вычисление внимания следующим образом:
[ \text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T + M + \hat{M}}{\sqrt{d_k}} \right) V ]
где (M) — это причинная маска, а (\hat{M}) — масштабная маска.
Мы провели эксперименты, используя датасеты Maestro, GiantMIDI и ATEPP, чтобы оценить эффективность Персеивера S. Результаты показали:
Персеивер S представляет собой значительный шаг вперед в генерации символической музыки, объединяя эффективную сегментацию и мультимасштабное внимание для создания музыки, которая обладает как долгосрочной структурой, так и выразительностью. Эта модель открывает новые возможности для создания высококачественной музыки, которая может быть использована в различных приложениях, от обучения до создания новых композиций.