Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством
Токенизация речи с помощью нейронных аудиокодеков является важной частью современных AI-пipelines для генерации или понимания речи, как отдельно, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредоточивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными предвзятостями. В данной работе мы показываем, что, увеличивая архитектуру трансформера с большим количеством параметров для решения этой задачи и применяя гибкое ограничение на конечную скалярную квантизацию (FSQ), можно достичь качества речи на уровне передовых технологий при крайне низких битовых скоростях 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые линии как в объективных, так и в субъективных тестах.