Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области генеративных моделей текст-видео (T2V) наблюдаются впечатляющие результаты в создании высококачественных видеоматериалов. Эти модели позволяют пользователям генерировать динамические видео на основе текстовых описаний, предоставляя гибкий и управляемый подход к созданию видео. Тем не менее, несмотря на этот прогресс, существующие модели все еще сталкиваются с проблемами, такими как артефакты, несоответствие текстовым описаниям и неестественное движение. Эти проблемы возникают из-за субъективных человеческих предпочтений, которые сложно формализовать в виде объективных функций.
В данной статье предлагается метод LiFT, который представляет собой новый подход к тонкой настройке моделей T2V, используя человеческую обратную связь для выравнивания моделей. Метод включает три ключевых этапа: сбор обратной связи от людей, обучение функции вознаграждения и выравнивание модели T2V.
Первый этап включает создание обширного набора данных обратной связи от людей, называемого LIFT-HRA. Этот набор данных состоит из примерно 10 000 аннотаций, каждая из которых включает в себя оценку и соответствующее объяснение. Для сбора данных используются видеопары текстов, которые генерируются с помощью предварительно обученной языковой модели (LLM). Аннотаторы оценивают каждую пару видео-текст по трем ключевым измерениям: семантической согласованности, плавности движения и видеофиделити.
Аннотация включает в себя оценку видео по трем измерениям:
Аннотаторы оценивают каждое видео, присваивая ему одну из трех категорий: "Хорошо", "Нормально" или "Плохо", и предоставляют подробное объяснение своей оценки. Этот процесс позволяет глубже понять, какие именно аспекты видео вызывают положительные или отрицательные оценки.
После аннотирования данных проводится трехступенчатый процесс очистки, который включает:
В результате получается надежный набор данных, который можно использовать для обучения модели вознаграждения.
На втором этапе разрабатывается модель вознаграждения, называемая LIFT-CRITIC. Эта модель обучается на основе собранных данных, чтобы предсказать оценки человеческой обратной связи и предоставить объяснения. Модель не только предсказывает оценки, но и захватывает причины, стоящие за ними, что улучшает интерпретируемость и понимание процесса оценки.
Модель LIFT-CRITIC основана на мультимодальной модели (LMM), которая обучается для предсказания оценок по трем измерениям. Существует два основных подхода к обучению модели:
Выбор второго подхода позволяет модели лучше учитывать сложность человеческого суждения и улучшает ее интерпретируемость.
Обучение модели включает в себя использование триплетов данных, состоящих из мультимодального ввода (видео и текстовое описание), вопроса и ответа. Оптимизационная цель — минимизация потерь, что позволяет модели лучше понимать, какие аспекты видео влияют на его оценку.
На третьем этапе используется обученная функция вознаграждения для выравнивания модели T2V. Это достигается через максимизацию взвешенной функции правдоподобия, что позволяет модели генерировать видео, которые лучше соответствуют человеческим ожиданиям.
Выравнивание модели T2V включает в себя использование функции вознаграждения для обновления параметров модели. Это достигается путем минимизации потерь, которые зависят от оценок, присвоенных сгенерированным видео. Первое слагаемое в функции потерь поощряет модель генерировать видео, которые получают более высокие оценки, в то время как второе слагаемое служит регуляризатором, основанным на реальных данных.
Эксперименты показывают, что использование метода LiFT значительно улучшает качество синтезируемых видео. В частности, модель, обученная с использованием LIFT-CRITIC, превосходит базовую модель CogVideoX-5B по всем 16 метрикам, что подчеркивает потенциал человеческой обратной связи для улучшения выравнивания и качества синтезируемых видео.
Для оценки эффективности предложенного подхода были проведены эксперименты с использованием различных моделей и наборов данных. Модель LIFT-CRITIC была адаптирована для конкретных задач оценки, и все модели были обучены на мощных графических процессорах.
Результаты экспериментов показывают, что интеграция обучения вознаграждения с использованием LIFT-CRITIC приводит к значительным улучшениям по всем метрикам оценки. Например, модель, обученная с использованием LIFT-CRITIC, показывает улучшения в "Согласованности субъекта" и "Плавности движения", что указывает на лучшее выравнивание с человеческими предпочтениями.
Визуальные сравнения результатов показывают, что модель, обученная с использованием LiFT, генерирует видео с лучшей семантической согласованностью и плавностью движения. Эти примеры подчеркивают эффективность подхода в выравнивании сгенерированного видео с текстовым описанием и ожиданиями человека.
В данной работе представлен новый подход к выравниванию моделей T2V с использованием человеческой обратной связи, который включает в себя создание набора данных LIFT-HRA и обучение модели вознаграждения LIFT-CRITIC. Результаты экспериментов демонстрируют, что предложенный метод значительно улучшает качество синтезируемых видео и выравнивание с человеческими ожиданиями. Этот подход открывает новые возможности для дальнейших исследований в области генерации видео и взаимодействия человека с искусственным интеллектом.