Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний

Системы верификации говорящего (SV) предназначены для подтверждения того, принадлежит ли данный аудиопоток ранее зарегистрированному говорящему, основываясь на различных акустических характеристиках, таких как высота, тон и интонация. Эти технологии открыли новые возможности для персонализированных приложений, но сталкиваются с серьезными проблемами при обработке эмоциональных высказываний. Большинство существующих моделей показывают высокие уровни ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. Это приводит к ошибкам в таких приложениях, как системы аутентификации и распознавания эмоций.

Основная проблема заключается в ограниченной доступности размеченных данных эмоциональной речи, что затрудняет разработку надежных представлений говорящих, охватывающих различные эмоциональные состояния. Для решения этой проблемы мы предлагаем новый подход, использующий фреймворк CycleGAN как метод увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя их уникальную вокальную идентичность. Наши экспериментальные данные подтверждают эффективность включения синтетических эмоциональных данных в процесс обучения.

Проблемы верификации говорящего

Системы SV могут быть классифицированы на зависимости от текста и независимые от текста. Модели, зависящие от текста, стремятся проверить говорящего на основе заранее определенного текста, в то время как независимые модели не зависят от текстового контекста. Однако сложная природа человеческой речи, особенно когда она модулируется эмоциями, представляет собой серьезную проблему, с которой современные системы SV не могут эффективно справиться.

Эмоциональные состояния могут существенно влиять на точность систем SV, что приводит к потенциальным уязвимостям в безопасности и снижению удовлетворенности пользователей. В реальных сценариях речь редко бывает свободной от эмоционального содержания, что создает несоответствия между зарегистрированными образцами нейтрального голоса и эмоционально насыщенными высказываниями во время верификации.

Необходимость адаптации систем SV к эмоциональной изменчивости речи становится критической для обеспечения надежности и доступности. С учетом роста удаленной работы и цифровых коммуникаций важность надежных и адаптируемых мер безопасности возросла. Важно, чтобы системы SV могли эффективно обрабатывать эмоциональные выражения, что обеспечит более равный доступ к технологиям аутентификации.

Ограниченность данных

Несмотря на явную необходимость, разработка систем SV, способных эффективно обрабатывать эмоциональную речь, затруднена нехваткой размеченных данных. Это ограничение не только сдерживает обучение более адаптивных моделей, но и тормозит инновации в создании более ориентированных на человека решений аутентификации. Вопрос о том, как преодолеть эти проблемы с помощью новых методов увеличения данных, таких как предложенный фреймворк CycleGAN, представляет собой важный шаг к созданию систем SV, которые будут как безопасными, так и чувствительными к человеческим эмоциям.

Методология

Модель верификации говорящего

Модель SV представляет собой многослойную сеть LSTM, которая использует 40-мерный мел-спектрограмм как входные данные и выдает n-мерный d-вектор, который является средним значением активаций, полученных из последнего скрытого слоя LSTM. Этот d-вектор помогает в верификации говорящего, инкапсулируя нейронные эмбеддинги характеристик голоса говорящего.

CycleGAN для преобразования эмоций

Фреймворк CycleGAN использует вокодер WORLD для извлечения речевых признаков из высказывания. Эмоциональный преобразователь состоит из двух компонентов: один использует 24-мерные мел-цепстральные коэффициенты для спектрального преобразования, а другой использует 10-мерные признаки основной частоты (F0) для обработки преобразования просодии. CycleGAN включает генератор для преобразования аудиопризнаков из одной эмоциональной тональности в другую и дискриминатор для различения реальных и преобразованных данных.

Функции потерь

Для обучения фреймворка CycleGAN используются три различных функции потерь: (i) противоречивая потеря, (ii) потеря циклической согласованности и (iii) потеря идентичности. Противоречивая потеря измеряет различие между преобразованными данными и оригинальными данными, в то время как потеря циклической согласованности гарантирует сохранение контекстной информации и идентичности говорящего между исходными и преобразованными высказываниями. Потеря идентичности сохраняет лексическую информацию.

Экспериментальные настройки

Для обучения модели CycleGAN использовались непараллельные эмоциональные высказывания, извлеченные из трех различных открытых наборов данных, включая Emotional Speech Dataset, EmoV и Ravdess. Эти наборы данных содержат достаточное количество эмоционального контента, но имеют недостаток в количестве говорящих.

Обучение модели

Мы обучили две отдельные сети CycleGAN, каждая из которых предназначена для преобразования нейтральных высказываний в эмоциональные (гневные и счастливые). В процессе обучения входные данные состоят из исходных (нейтральных) и целевых (эмоциональных) высказываний от одного и того же говорящего, но с различными эмоциональными выражениями.

Результаты

Преобразование эмоций

Мы провели оценку эффективности синтетических эмоциональных высказываний, используя t-SNE для визуализации эмбеддингов говорящих. Нейтральные высказывания формируют центральный кластер, в то время как гневные высказывания разбросаны по пространству. Синтетические высказывания хорошо интегрируются с аутентичными гневными высказываниями, что указывает на изменение эмоционального состояния.

Увеличение данных для обучения модели SV

Влияние на производительность модели SV было оценено путем увеличения обучающего набора данных с помощью преобразованных эмоциональных данных. Мы наблюдали относительное снижение уровня ошибок (EER) для эмоциональных высказываний, что подтверждает эффективность включения синтетических данных в процесс обучения.

Устойчивость к атакам подделки

Интеграция синтетических высказываний как метода увеличения данных представляет риск атак подделки, где злоумышленники могут использовать аудиовыражения для обмана модели SV. Мы провели эксперименты с медийной речью как прокси для подделки и обнаружили, что добавление синтетических высказываний не негативно сказалось на производительности моделей SV.

Заключение

В этой работе мы представили новаторский подход, использующий фреймворк CycleGAN для значительного улучшения систем SV через инновационное использование увеличения данных. Эта техника уникально сохраняет индивидуальные вокальные черты говорящих, генерируя синтетические эмоциональные образцы речи, что улучшает процесс обучения и производительность модели в различных эмоциональных сценариях.

Интеграция синтетических данных представляет собой важное улучшение в точности и надежности моделей SV, отвечая на критическую необходимость в системах, которые могут эффективно обрабатывать нюансы человеческой речи, влияющие на эмоциональные состояния. Эти достижения открывают новые возможности для создания более чувствительных и отзывчивых AI-систем, которые могут учитывать разнообразие пользовательских популяций и обеспечивать более справедливый доступ к технологиям аутентификации.

Статья на arxiv Оригинал pdf verification authentication models

Ай Дайджест