Ай Дайджест - категория error

Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний

Система верификации говорящего (SV) предлагает услугу аутентификации, предназначенную для подтверждения того, принадлежит ли данный образец речи конкретному говорящему. Эта технология открыла путь для различных персонализированных приложений, которые учитывают индивидуальные предпочтения. Кажущейся задачей, с которой сталкиваются системы SV, является их способность последовательно работать в диапазоне эмоциональных спектров. Большинство существующих моделей демонстрируют высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. В результате это явление часто приводит к пропуску речи, представляющей интерес. Эта проблема в первую очередь связана с ограниченной доступностью помеченных данных эмоциональной речи, что препятствует разработке надежных представлений говорящих, охватывающих различные эмоциональные состояния. Чтобы решить эту проблему, мы предлагаем новый подход, использующий фреймворк CycleGAN в качестве метода увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя уникальную вокальную идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого увеличенного набора данных, последовательно превосходят базовые модели в задаче верификации говорящих в сценариях эмоциональной речи, снижая равную вероятность ошибки до 3,64%.

2024-12-03data authentication models

Несоответствия в Моделях Консистенции: Лучшее Решение ODE Не Обязательно Улучшает Качество Генерации

Хотя модели диффузии могут генерировать образцы поразительно высокого качества, их ограничивает дорогостоящая итеративная процедура выборки. Модели согласованности (CMs) недавно появились как перспективный метод дистилляции моделей диффузии, снижая стоимость выборки за счет генерации высококачественных образцов всего за несколько итераций. Цель дистилляции моделей согласованности заключается в решении обыкновенного дифференциального уравнения (ОДУ) потока вероятности, определенного существующей моделью диффузии. CMs не обучаются напрямую для минимизации ошибки по отношению к решателю ОДУ, вместо этого они используют более вычислительно эффективную целевую функцию. Чтобы изучить, насколько эффективно CMs решают ОДУ потока вероятности, и как влияет любая вызванная ошибка на качество генерируемых образцов, мы представляем Direct CMs, которые напрямую минимизируют эту ошибку. Интересно, что мы обнаружили, что Direct CMs уменьшают ошибку решения ОДУ по сравнению с CMs, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно CMs работают так хорошо изначально. Полный код доступен по адресу: https://github.com/layer6ai-labs/direct-cms.

2024-11-15distillation ode probability