Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "coherence"

Track4Gen: Улучшение генерации видео с помощью отслеживания точек

Хотя современные генераторы видео создают визуально насыщенный контент, они все еще сталкиваются с проблемой дрейфа внешнего вида, когда объекты постепенно теряют четкость или меняются непоследовательно в разных кадрах, нарушая визуальную согласованность. Мы предполагаем, что это происходит из-за отсутствия явного контроля в терминах пространственного слежения на уровне признаков. Мы предлагаем Track4Gen, генератор видео, обладающий пространственной осведомленностью, который сочетает в себе затраты на диффузию видео с отслеживанием точек в разных кадрах, обеспечивая улучшенное пространственное управление признаками диффузии. Track4Gen объединяет задачи генерации видео и отслеживания точек в одну сеть, внося минимальные изменения в существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединить генерацию видео и отслеживание точек, которые обычно рассматриваются как отдельные задачи. Наши обширные оценки показывают, что Track4Gen эффективно снижает дрейф внешнего вида, что приводит к временно стабильной и визуально согласованной генерации видео. Страница проекта: hyeonho99.github.io/track4gen

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

AnimateAnything: Создание Консистентных и Контролируемых Анимаций для Генерации Видео

Мы представляем унифицированный подход к управляемой генерации видео под названием **AnimateAnything**, который облегчает точное и последовательное манипулирование видео в различных условиях, включая траектории камеры, текстовые запросы и аннотации движений пользователя. В частности, мы тщательно разрабатываем сеть слияния многомасштабных контрольных характеристик для построения общего представления движения для различных условий. Она явно преобразует всю контрольную информацию в кадр за кадром оптические потоки. Затем мы включаем оптические потоки как априорные знания о движении для руководства финальной генерацией видео. Кроме того, чтобы уменьшить мерцание, вызванное крупномасштабными движениями, мы предлагаем модуль стабилизации на основе частот. Он может улучшить временную когерентность, обеспечивая согласованность частотной области видео. Эксперименты показывают, что наш метод превосходит современные подходы. Для получения дополнительной информации и видео, пожалуйста, обратитесь к веб-странице: https://yu-shaonian.github.io/Animate_Anything/.