Мультимодальная генерация звуков для видео: концепция MultiFoley

Создание звуковых эффектов для видео — это сложный и творческий процесс, который часто требует от звукорежиссеров использования различных источников звука, которые могут не соответствовать оригинальным звукам в видео. Например, для создания звука трескающегося дерева могут использоваться звуки хрустящего целлулоида. Этот процесс, известный как Foley, направлен на создание художественного эффекта, который улучшает восприятие зрителем. Однако традиционные методы генерации звука ограничены в контроле и качестве, что создает потребность в более гибких решениях.

В этой статье мы рассмотрим MultiFoley — новую модель, специально разработанную для генерации звуковых эффектов для немых видео с использованием мультимодальных контролей, таких как текст, аудио и видео. Эта модель предоставляет звукорежиссерам возможность создавать высококачественные звуковые дорожки, синхронизированные с визуальным контентом, с использованием различных входных данных.

Проблема и цели

Современные системы генерации звука часто сталкиваются с проблемами качества и синхронизации. Существующие подходы к генерации звука из видео могут ограничивать контент и не предоставлять необходимый контроль для звукорежиссеров. MultiFoley решает эти проблемы, позволяя пользователям создавать звуковые эффекты, которые могут быть как реалистичными, так и фантазийными, в зависимости от заданных условий.

Ключевыми задачами, которые решает MultiFoley, являются:

Генерация качественного звука: Модель должна создавать звуки, соответствующие высоким стандартам качества.
Синхронизация с видео: Звуковые дорожки должны быть точно синхронизированы с визуальными действиями в видео.
Гибкость в управлении: Пользователи должны иметь возможность контролировать характеристики звука, используя текстовые подсказки и примеры звуков.

Архитектура MultiFoley

MultiFoley состоит из нескольких компонентов, которые работают вместе для достижения поставленных целей:

Диффузионная модель: Основной компонент, который отвечает за генерацию звука. Он обучается на больших наборах данных, содержащих как видео, так и аудио.
Аудио кодер и декодер: Эти компоненты кодируют и декодируют звуковые волны в латентное представление, что позволяет модели работать с более компактными и управляемыми данными.
Визуальный кодер: Он извлекает визуальные особенности из видео, что позволяет модели учитывать визуальный контент при генерации звука.
Текстовый кодер: Этот компонент обрабатывает текстовые подсказки, которые могут направлять процесс генерации звука.

Мультимодальная обработка

MultiFoley использует мультимодальную обработку, что означает, что он может принимать входные данные из разных источников одновременно. Это позволяет пользователям задавать условия для генерации звука:

Текстовые подсказки: Пользователи могут вводить текстовые описания, которые определяют, как должен звучать звук. Например, можно указать, что звук должен быть "тихим" или "громким", или заменить один звук на другой.
Аудио примеры: Модель может использовать звуковые библиотеки в качестве эталонов для генерации звука. Это позволяет сохранить стиль и качество звука.
Визуальные примеры: Пользователи могут предоставлять видео с уже записанными звуковыми дорожками, которые модель может использовать для обучения.

Обучение модели

MultiFoley обучается на сочетании низкокачественных видео с интернет-данными и профессиональными звуковыми эффектами. Это позволяет модели учиться генерировать высококачественный звук, соответствующий видеосодержимому, даже если исходные данные имеют низкое качество. Обучение включает в себя совместную работу с аудио, видео и текстовыми данными, что позволяет модели эффективно учитывать все три модальности.

Применения MultiFoley

MultiFoley открывает новые возможности для звукорежиссеров и создателей контента. Рассмотрим несколько ключевых применений:

Генерация звуковых эффектов с текстовым контролем

Пользователи могут использовать текстовые подсказки для управления звуковыми эффектами. Например, если в видео изображен человек, играющий на пиано, пользователь может ввести текст "звуки пиано", и модель сгенерирует соответствующий звук. Также возможно использование отрицательных подсказок, чтобы исключить нежелательные звуки, такие как фоновый шум.

Генерация звуков на основе аудио- и видео-примеров

MultiFoley может использовать аудио из звуковых библиотек для создания звуковых эффектов. Например, если в видео изображен человек, бегущий по траве, модель может использовать звук шагов, записанный в другой ситуации, и адаптировать его к текущему контексту. Это позволяет создавать более богатые и разнообразные звуковые дорожки.

Расширение звуковых дорожек

Еще одной интересной функцией является возможность расширения существующих звуковых дорожек. Если у пользователя уже есть часть звуковой дорожки, он может использовать MultiFoley для генерации оставшейся части звука, сохраняя при этом синхронизацию с видео.

Оценка производительности

MultiFoley прошел обширные тесты, включая автоматические оценки и человеческие исследования. Результаты показали, что модель успешно генерирует синхронизированные звуки высокого качества на основе различных входных данных. Она превосходит существующие методы по ключевым метрикам, таким как качество звука и согласованность между аудио и видео.

Качественные и количественные эксперименты

В ходе экспериментов было установлено, что MultiFoley демонстрирует высокую степень согласованности между аудио и видео. Оценки качества звука, такие как Fréchet Audio Distance (FAD), показали, что сгенерированные звуки близки к эталонным, что свидетельствует о высоком уровне качества.

Заключение

MultiFoley представляет собой значительный шаг вперед в области генерации звуков для видео. Она предоставляет пользователям мощные инструменты для создания высококачественных звуковых эффектов, которые синхронизированы с визуальным контентом. Модель демонстрирует гибкость и эффективность в работе с мультимодальными входными данными, что делает ее полезной для звукорежиссеров и создателей контента.

Несмотря на достигнутые успехи, есть еще много возможностей для улучшения. Увеличение объема и разнообразия обучающих данных может значительно повысить производительность MultiFoley, а также расширить ее применение в различных областях, таких как игровая индустрия и кинематография.

Статья на arxiv Оригинал pdf training generation evaluation

Ай Дайджест