Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "artificial"

Мультимодальная генерация звуков для видео: концепция MultiFoley

Создание звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые существенно отличаются от реальных источников, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для звукового генерации под управлением видео, которая поддерживает мультимодальное управление с помощью текста, аудио и видео. Учитывая беззвучное видео и текстовый запрос, MultiFoley позволяет пользователям создавать чистые звуки (например, колеса скейтборда, вращающиеся без шума ветра) или более причудливые звуки (например, заставляя рычащий звук льва звучать как мяуканье кота). MultiFoley также позволяет пользователям выбирать аудио-ссылки из библиотек звуковых эффектов (SFX) или частичных видео для кондиционирования. Ключевым новшеством нашей модели является ее совместное обучение на интернет-видеодатасетах с низким качеством аудио и профессиональных записях SFX, что позволяет генерировать аудио высокого качества, полного диапазона (48kHz). Через автоматизированные оценки и исследования с участием человека мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при различных условных входах и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видеорезультатов: https://ificl.github.io/MultiFoley/