Свежая выжимка ml и AI статей - каждый день
Язык — это самый естественный и эффективный способ передачи человеческих идей и перспектив, который развивался на протяжении тысячелетий. В последние годы технологии генерации видео на основе текста (T2V) стали активно развиваться, однако существующие модели диффузии видео, как правило, используют функции из текстовых энкодеров и сталкиваются с ограничениями в понимании текста. Эта проблема побудила исследователей искать способы улучшения семантического восприятия с использованием крупных языковых моделей (LLMs), которые демонстрируют выдающиеся возможности в текстовых задачах.
Современные модели T2V, такие как CLIP и T5, хоть и являются мощными, все же не обеспечивают достаточного понимания текста, особенно в контексте генерации видео. Проблема усугубляется тем, что краткие текстовые подсказки не могут охватить все пространственно-временные визуальные детали видео, такие как скорость движущегося автомобиля или изменения фона. Это ограничение побудило исследователей исследовать возможности LLM, которые предлагают три явных преимущества для генерации T2V: точное понимание текста, способность к генерации воображаемого контента и гибкость в приоритизации интересов пользователя.
В этой работе мы представляем Mimir — обучающую структуру, которая включает специально разработанный токен-фьюзер для гармонизации выходных данных текстовых энкодеров и LLM. Эта структура позволяет модели T2V полностью использовать обученные видеоприоры, одновременно используя текстовые возможности LLM. Результаты экспериментов показывают, что Mimir значительно улучшает качество генерируемых видео, особенно при обработке коротких заголовков и управлении изменяющимися движениями.
В этой секции мы сначала представим предварительные сведения о моделях диффузии, затем опишем различные типы токенов и, наконец, введем детали токен-фьюзера, который состоит из двух компонентов: неразрушающего слияния и семантического стабилизатора.
Для снижения высоких затрат на обучение и вывод при работе с моделями диффузии, большинство из них следуют подходу, известному как латентные модели диффузии. Этот метод обычно включает три ключевых компонента:
Для генерации видео мы работаем с двумя типами токенов:
Токен-фьюзер состоит из двух языковых ветвей (энкодер и декодер) и визуального трансформера. Для устранения несовместимости между токенами мы применяем две эффективные схемы: нормализацию и масштабирование, а также нулевой свертки. Эти шаги обеспечивают согласование масштабов токенов и их интеграцию в процессе обучения.
Семантический стабилизатор выполняет две основные функции: он гарантирует, что модель денойзинга точно захватывает основные семантические элементы в подсказке, а также стабилизирует колеблющиеся текстовые функции, возникающие во время предсказания следующего токена.
В этой секции мы подробно оценим наш метод и предоставим анализ причин, по которым наши улучшения эффективны, а также преимущества нашего подхода в производительности генерации видео.
Мы выбрали Phi-3.5 в качестве декодера LLM и реализовали модели диффузии, следуя установленному графику шума. Мы собрали 500,000 высококачественных видеоклипов для обучения модели Mimir и сравнили наш подход с другими высокоэффективными моделями T2V.
Результаты количественной оценки показывают, что Mimir превосходит существующие подходы по всем метрикам. Особенно заметны улучшения в метриках "Множественные объекты" и "Пространственные отношения". Качественные оценки показывают, что Mimir способен точно понимать входные текстовые подсказки, такие как цвет, количество объектов и их взаимное расположение.
Мы провели слепое исследование с участием 10 участников, чтобы оценить качество Mimir и других методов с точки зрения пользователя. Результаты показали, что Mimir превосходит по всем аспектам, включая соблюдение инструкций, физическое моделирование и визуальное качество.
Для оценки эффективности компонентов Mimir мы провели исследование абляции. Результаты показали, что использование токен-фьюзера и семантического стабилизатора значительно улучшает производительность модели.
В данной работе мы представили модель T2V, Mimir, которая использует встраивания крупных языковых моделей в трансформере диффузии видео для достижения точного понимания текста в пространственно-временной семантике видео. Основная инновация нашего подхода заключается в токен-фьюзере, который объединяет семантические функции из энкодеров и декодеров с различными распределениями. Результаты экспериментов и визуализаций подтверждают эффективность Mimir, а обширные количественные и качественные сравнения, наряду с детальным пользовательским исследованием, демонстрируют превосходную производительность нашего метода.