Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Музыка обладает уникальной способностью пересекать языковые и культурные барьеры, резонируя с человеческими эмоциями и создавая связи, которые выходят за пределы слов. В повседневной жизни люди инстинктивно связывают визуальные, текстовые или аудиовходы с определенными музыкальными мотивами. Это подчеркивает потенциал системы, способной генерировать музыку из различных модальностей. В последние годы достижения в области генеративных моделей привели к значительному прогрессу в производстве музыки, в основном из текстовых описаний, таких как генерация "текст-музыка". Однако расширение генерации музыки на другие модальности, такие как изображения и видео, остается сложной задачей и находится на начальном этапе.

Проблемы существующих методов

Существующие методы генерации музыки, которые используют общие пространства встраивания для мультимодальной фузии, сталкиваются с рядом проблем. Во-первых, нехватка больших наборов данных с высококачественными музыкальными парами затрудняет изучение значимых кросс-модальных отношений. Во-вторых, различные модальности вносят свой вклад в генерацию музыки по-разному: текст предоставляет явные семантические подсказки, такие как темы и эмоции, в то время как изображения и видео передают визуальные эмоции, атмосферу и динамику, такие как ритм. Это подчеркивает важность более сильной мультимодальной согласованности.

Предложенный подход: Visuals Music Bridge (VMB)

Чтобы решить эти проблемы, мы предлагаем использовать текст и музыку в качестве явных мостов для мультимодальной согласованности. В отличие от предыдущих методов, которые используют общее пространство встраивания для неявной согласованности, явный мост помогает смягчить проблему нехватки данных и улучшить мультимодальную согласованность, используя обширные текстово-музыкальные пары данных. Мы представляем новый метод, названный Visuals Music Bridge (VMB), который включает следующие ключевые компоненты:

Модель описания музыки в мультимодальном формате: Эта модель преобразует визуальные входы в подробные текстовые описания, которые служат текстовым мостом для генерации музыки.
Модуль извлечения музыки с двойной траекторией: Этот модуль сочетает в себе стратегии широкого и целенаправленного извлечения, чтобы предоставить музыкальный мост и обеспечить контроль пользователя.
Явно условная генерация музыки: Эта архитектура интегрирует два явных моста в диффузионный трансформер для генерации музыки.

Эксперименты и результаты

Мы провели эксперименты по генерации музыки из видео, изображений и текстов, а также по контролю генерации музыки. Результаты показывают, что VMB значительно улучшает качество музыки, согласованность модальностей и настройку по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с широкими применениями в различных мультимедийных областях.

Модель описания музыки в мультимодальном формате

Мы создали мультимодальный музыкальный набор данных, состоящий из триплетов видео-музыка-описание и различных аннотаций музыкальных атрибутов, таких как жанр, настроение и инструменты. На основе этого набора данных мы представляем Модель описания музыки в мультимодальном формате, которая построена на основе InternVL2 для точной интерпретации визуальных входов и их преобразования в детализированные музыкальные описания на естественном языке.

Модуль извлечения музыки с двойной траекторией

Мы разработали модуль извлечения музыки с двойной траекторией, который извлекает соответствующие музыкальные произведения, используя как широкие, так и целенаправленные стратегии извлечения. Широкое извлечение определяет общие соответствия эмоционального и тематического контента, устанавливая глобальную согласованность, в то время как целенаправленное извлечение фокусируется на конкретных музыкальных атрибутах, таких как темп, инструментовка и жанр, позволяя пользователям настраивать отдельные элементы музыки.

Явно условная генерация музыки

С учетом текстового и музыкального мостов мы предлагаем архитектуру явно условной генерации музыки, которая интегрирует оба моста в диффузионный трансформер. Наша модель использует MusicControlFormer для интеграции тонкой настройки из широкого извлечения и использует модуль стилизации для общих условий из целенаправленного извлечения.

Заключение

В данной работе мы предложили новую мультимодальную систему генерации музыки, названную VMB, чтобы решить проблемы существующих методов. VMB принимает различные входные данные, включая текст, изображения и видео, и эффективно интегрирует их, используя текст и музыку в качестве мостов. Наша система позволяет тонкую настройку ключевых музыкальных элементов, обеспечивая пользователям возможность направлять процесс генерации в соответствии с их предпочтениями. Мы провели обширные эксперименты, которые продемонстрировали, что VMB генерирует музыку, которая хорошо согласуется с мультимодальными входами и демонстрирует высокую управляемость, превосходя современные передовые методы. VMB имеет значительный потенциал для мультимедийных приложений, облегчая персонализированную и контекстуально богатую генерацию музыки в различных областях, таких как развлечения и интерактивные медиа.

Статья на arxiv Оригинал pdf multimodal retrieval control

Ай Дайджест