Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки
Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.