Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний
Система верификации говорящего (SV) предлагает услугу аутентификации, предназначенную для подтверждения того, принадлежит ли данный образец речи конкретному говорящему. Эта технология открыла путь для различных персонализированных приложений, которые учитывают индивидуальные предпочтения. Кажущейся задачей, с которой сталкиваются системы SV, является их способность последовательно работать в диапазоне эмоциональных спектров. Большинство существующих моделей демонстрируют высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. В результате это явление часто приводит к пропуску речи, представляющей интерес. Эта проблема в первую очередь связана с ограниченной доступностью помеченных данных эмоциональной речи, что препятствует разработке надежных представлений говорящих, охватывающих различные эмоциональные состояния. Чтобы решить эту проблему, мы предлагаем новый подход, использующий фреймворк CycleGAN в качестве метода увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя уникальную вокальную идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого увеличенного набора данных, последовательно превосходят базовые модели в задаче верификации говорящих в сценариях эмоциональной речи, снижая равную вероятность ошибки до 3,64%.