Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством

Кодирование речи и аудио в цифровом формате является важной областью исследований, которая активно развивалась с 1970-х годов. С появлением MP3 в 1990-х годах задачи по улучшению качества звука и коэффициента сжатия аудиокодеков стали особенно актуальными. Традиционно кодеки стремились к максимизации сжатия и качества звука при низкой вычислительной стоимости. Однако с недавним развитием методов машинного обучения, таких как нейронные аудиокодеки (NAC), подходы к кодированию речи начали меняться.

В этой статье мы обсудим архитектуру нового кодека, основанного на трансформерах, который способен достигать высококачественного кодирования речи при очень низких битрейтах, таких как 400 или 700 бит в секунду. Мы рассмотрим, как масштабирование трансформеров и применение гибкой схемы квантования, основанной на конечном скалярном квантовании (FSQ), позволяют достичь таких результатов.

Нейронные аудиокодеки

Текущие нейронные аудиокодеки в основном основаны на архитектурах, использующих свертки или рекуррентные нейронные сети. Однако такие подходы трудно масштабировать для больших моделей без введения ограничений. Трансформеры, напротив, продемонстрировали возможность масштабирования до миллиардов параметров в различных областях, но их применение в контексте кодирования речи остается недостаточно исследованным.

Одним из основных вкладов нашего исследования является разработка новой архитектуры кодека, которая в основном основана на трансформерах и масштабируется до диапазона 1 миллиарда параметров. Это открывает новые возможности для достижения более высокого качества звука и более эффективного сжатия.

Архитектура кодека

Архитектура нашего кодека включает в себя стандартные блоки трансформеров, которые обрабатывают входные аудиосигналы. Кодек состоит из двух основных частей: энкодера и декодера. Обе части имеют схожую структуру, включающую многослойные блоки трансформеров, которые работают на определенном временном разрешении.

Этапы кодирования и декодирования

Энкодер и декодер в нашей архитектуре состоят из последовательности блоков, каждый из которых выполняет операции свертки и самовнимания. Эти блоки обеспечивают необходимую обработку временных последовательностей и позволяют модели эффективно учиться на разнообразных аудиосигналах.

Квантование и использование FSQ

Для решения проблем, связанных с квантованием, мы применяем модифицированную версию конечного скалярного квантования (FSQ). Вместо использования обучаемого кодового слова, как в традиционных подходах, FSQ проецирует латентное представление в пространство низкой размерности и квантует каждое измерение этого пространства.

Это приводит к более эффективному использованию кодовой книги и позволяет избежать проблем с неравномерным распределением кодов, которые часто возникают в традиционных методах квантования. Мы также внедрили пост-тренировочные модификации, которые позволяют изменять качество реконструкции в зависимости от требований конкретного применения.

Обучение и оптимизация

Обучение модели проводится в два этапа: предварительное обучение и дообучение. В каждом из этапов используется составная функция потерь, которая включает несколько потерь реконструкции и противостоящую потерю, основанную на дискриминаторе. Это позволяет модели эффективно обучаться и улучшать качество сжатия и воспроизведения звука.

Дискриминатор

Мы используем дискриминатор, вдохновленный архитектурой, используемой в EnCodec. Дискриминатор состоит из нескольких сложных STFT на различных разрешениях, что позволяет улучшить оценку качества сжатия и реконструкции.

Эксперименты и результаты

Для обучения моделей кодирования речи мы использовали наборы данных, содержащие аудиозаписи на английском языке. Мы провели множество экспериментов, чтобы оценить производительность предложенного кодека по различным объектным метрикам, включая SI-SDR, PESQ и другие.

Сравнение с базовыми моделями

Мы сравнили результаты нашей модели с существующими нейронными аудиокодеками, такими как DAC и EnCodec. Результаты показали, что наш кодек значительно превосходит существующие модели по качеству звука при аналогичных битрейтах.

Объективные и субъективные метрики

Мы использовали как объективные, так и субъективные метрики для оценки производительности модели. Субъективные тесты, проведенные с участием 24 участников, показали, что предложенный кодек демонстрирует выдающиеся результаты в сравнении с другими моделями.

Заключение

В данной работе мы предложили новую архитектуру кодека для нейронного кодирования речевых сигналов, основанную на трансформерах и гибком дискретном узле, использующем FSQ. Мы продемонстрировали, что масштабирование трансформеров в контексте кодирования речи позволяет достигать нового уровня качества и сжатия. Будущие исследования могут сосредоточиться на применении этой архитектуры для более широкого спектра языков и типов аудиосигналов, а также на улучшении вычислительной эффективности модели.

Это краткое резюме основных концепций, представленных в исследовании. Подробности о методах, архитектуре и результатах можно найти в полном тексте работы.

Статья на arxiv Оригинал pdf tokenization quantization neural

Ай Дайджест