Ай Дайджест - категория verification

GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

Модели генерации текста в видео продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамических сцен на основе составных текстовых запросов, таких как связывание атрибутов для нескольких объектов, временная динамика, связанная с разными объектами, и взаимодействие между объектами. Наша основная мотивация заключается в том, что сложные задачи можно разложить на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта в сложных целях. Мы предлагаем GenMAC, итеративную многоагентную структуру, которая позволяет составлять текстовую генерацию видео. Совместный рабочий процесс включает три этапа: Дизайн, Генерация и Повторный дизайн, с итеративным циклом между этапами Генерации и Повторного дизайна для постепенной проверки и уточнения созданных видео. Этап Повторного дизайна является самым сложным, его цель - проверить созданные видео, предложить исправления и переработать текстовые запросы, макеты кадра и масштабы руководства для следующей итерации генерации. Чтобы избежать галлюцинации одного агента MLLM, мы разбиваем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложений, агент исправлений и агент структурирования выходных данных. Более того, для решения разнообразных сценариев составной текстовой генерации видео мы разрабатываем механизм самостоятельного маршрутизации для адаптивного выбора подходящего агента исправлений из набора агентов исправлений, каждый из которых специализирован для одного сценария. Обширные эксперименты демонстрируют эффективность GenMAC, достигая лучших результатов в области составной текстовой генерации видео.

2024-12-09iteration generation collaboration

Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний

Система верификации говорящего (SV) предлагает услугу аутентификации, предназначенную для подтверждения того, принадлежит ли данный образец речи конкретному говорящему. Эта технология открыла путь для различных персонализированных приложений, которые учитывают индивидуальные предпочтения. Кажущейся задачей, с которой сталкиваются системы SV, является их способность последовательно работать в диапазоне эмоциональных спектров. Большинство существующих моделей демонстрируют высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. В результате это явление часто приводит к пропуску речи, представляющей интерес. Эта проблема в первую очередь связана с ограниченной доступностью помеченных данных эмоциональной речи, что препятствует разработке надежных представлений говорящих, охватывающих различные эмоциональные состояния. Чтобы решить эту проблему, мы предлагаем новый подход, использующий фреймворк CycleGAN в качестве метода увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя уникальную вокальную идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого увеличенного набора данных, последовательно превосходят базовые модели в задаче верификации говорящих в сценариях эмоциональной речи, снижая равную вероятность ошибки до 3,64%.

2024-12-03verification models error

Поиск, проверка и обратная связь: К следующему поколению пост-тренировочного парадигма фундаментальных моделей через инженерию верификаторов

Эволюция машинного обучения все чаще акцентируется на разработке мощных моделей и более масштабируемых сигналов надзора. Однако, появление фундаментальных моделей вызывает значительные трудности в предоставлении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. В результате, возникает срочная необходимость исследовать новые сигналы надзора и технические подходы. В данной статье мы предлагаем концепцию инженерии верификаторов — новый парадигм постобучения, специально разработанный для эпохи фундаментальных моделей. Основой инженерии верификаторов является использование набора автоматизированных верификаторов для выполнения задач проверки и предоставления значимой обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификаторов на три ключевых этапа: поиск, проверка и обратная связь, а также предоставляем всесторонний обзор последних научных достижений на каждом из этих этапов. Мы считаем, что инженерия верификаторов представляет собой фундаментальный путь к достижению искусственного общего интеллекта.

2024-11-19intelligence training supervision