Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "video"

Дисентанглинг позы: управление анимацией человеческих изображений

Контролируемая анимация человеческого изображения направлена на генерацию видео из эталонных изображений с использованием управляющих видеозаписей. Из-за ограниченных контрольных сигналов, предоставляемых разреженным управлением (например, поза скелета), в недавних работах были предприняты попытки ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить согласование движений. Однако такое строгое плотное управление ухудшает качество сгенерированного видео, когда форма тела эталонного персонажа значительно отличается от формы тела в управляющем видео. В этой статье мы представляем DisPose, чтобы извлечь более универсальные и эффективные контрольные сигналы без дополнительного плотного ввода, который разделяет разреженную позу скелета в анимации человеческого изображения на руководство полем движений и соответствие ключевым точкам. В частности, мы генерируем плотное поле движений из разреженного поля движений и эталонного изображения, что обеспечивает плотное руководство на уровне регионов, сохраняя возможность обобщения разреженного контроля позы. Мы также извлекаем диффузионные признаки, соответствующие ключевым точкам позы из эталонного изображения, и затем эти точечные признаки передаются на целевую позу для предоставления четкой идентификационной информации. Чтобы бесшовно интегрироваться в существующие модели, мы предлагаем гибридный ControlNet, который улучшает качество и согласованность сгенерированных видео, замораживая параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

modelsvideotext

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

VideoICL: Новая эра в понимании видео с помощью итеративного обучения в контексте

Недавние достижения в области больших мультимодальных моделей видео (LMMs) значительно улучшили их способности к пониманию и рассуждению в видео. Однако их эффективность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как дообучение на OOD наборах данных, непрактичны из-за высокой вычислительной стоимости. Хотя обучение в контексте (ICL) с примерами демонстрации показало многообещающие результаты в языковых задачах и задачах с изображениями и языком без дообучения, применение ICL к задачам видео-языка сталкивается с трудностями из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Чтобы решить эти проблемы, мы предлагаем VideoICL, новую структуру обучения в контексте видео для OOD задач, которая вводит стратегию выбора релевантных примеров на основе сходства и итеративный подход к выводу, основанный на уверенности. Это позволяет выбирать наиболее релевантные примеры и сортировать их по сходству для использования при выводе. Если сгенерированный ответ имеет низкий уровень уверенности, наша структура выбирает новые примеры и снова выполняет вывод, итеративно уточняя результаты, пока не будет получен ответ с высокой уверенностью. Этот подход улучшает понимание видео OOD, расширяя эффективную длину контекста без высоких затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительные улучшения в производительности, особенно в специфических сценариях, закладывая основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL.

VideoGen-of-Thought: Коллаборативная структура для многослойной генерации видео

Текущие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многосъемочных, аналогичных фильмам видео. Существующие модели, обученные на данных большого масштаба с использованием мощных вычислительных ресурсов, неудивительно, что оказываются недостаточными для поддержания логического повествования и визуальной согласованности между несколькими кадрами связного сценария, так как они часто обучаются с целью одного кадра. С этой целью мы предлагаем VideoGen-of-Thought (VGoT), совместную архитектуру без обучения, разработанную специально для многосъемочной генерации видео. VGoT разработан с тремя целями: Генерация многосъемочного видео: мы делим процесс генерации видео на структурированную, модульную последовательность, включающую (1) Генерацию сценария, которая переводит краткую историю в детализированные подсказки для каждого кадра; (2) Генерацию ключевых кадров, ответственную за создание визуально согласованных ключевых кадров, верных изображению персонажей; и (3) Генерацию видео на уровне кадра, которая преобразует информацию из сценариев и ключевых кадров в кадры; (4) Механизм сглаживания, который обеспечивает согласованный многосъемочный результат. Разумный дизайн повествования: вдохновленный сценарным письмом для кино, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую согласованность, развитие персонажей и поток повествования на протяжении всего видео. Согласованность между кадрами: мы обеспечиваем временную и идентичностную согласованность, используя эмбеддинги, сохраняющие идентичность (IP), между кадрами, которые автоматически создаются из повествования. Кроме того, мы интегрируем механизм сглаживания между кадрами, который включает границу сброса, эффективно объединяющую латентные признаки соседних кадров, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты демонстрируют, что VGoT превосходит существующие методы генерации видео в производстве высококачественных, согласованных многосъемочных видео.

Open-Sora Plan: Новый Подход к Генерации Видео

Мы представляем проект Open-Sora Plan, проект с открытым исходным кодом, который стремится внести большую модель генерации для создания желаемых видео в высоком разрешении длительностью основываясь на различных входных данных пользователя. Наш проект состоит из нескольких компонентов для всего процесса генерации видео, включая вариационный автокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse, а также различные контроллеры условий. Более того, разработаны множество вспомогательных стратегий для эффективного обучения и вывода, и предложен многоуровневый конвейер обработки данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш проект Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт смогут вдохновить сообщество исследователей генерации видео. Все наши коды и веса модели доступны для публики по адресу https://github.com/PKU-YuanGroup/Open-Sora-Plan.

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

PhysGame: Открытие нарушений физической здравомыслия в игровом видео

Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) продемонстрировали появление различных возможностей для мышления и интерпретации динамического визуального контента. Среди них игровые видео выделяются как уникальный источник данных, часто содержащий сбои, которые противоречат физическим здравым рассуждениям. Эта характеристика делает их эффективным эталоном для оценки недостаточно исследованной способности к пониманию физического здравого смысла в видео LLMs. В этой статье мы предлагаем PhysGame как новаторский эталон для оценки нарушений физического здравого смысла в игровых видео. PhysGame включает в себя 880 видео, связанных со сбоями в четырех основных областях (т.е. механика, кинематика, оптика и свойства материалов) и охватывающих 12 различных аспектов физического здравого смысла. Проведя обширную оценку различных современных видео LLMs, мы обнаружили, что производительность текущих открытых видео LLMs значительно отстает от производительности проприетарных аналогов. Чтобы устранить этот разрыв, мы создали набор данных для настройки инструкций PhysInstruct с 140 057 парами вопросов и ответов для содействия обучению физического здравого смысла. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются в зависимости от вводящих в заблуждение заголовков (т.е. взлом метаинформации), меньшего числа кадров (т.е. временной взей) и более низкого пространственного разрешения (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, усиленный физическими знаниями. Обширные эксперименты по как физически ориентированному эталону PhysGame, так и общим эталонам видео понимания демонстрируют передовую производительность PhysVLM.

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока

Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

Введение в MyTimeMachine: Персонализированная трансформация возраста лица

Стареющее лицо - это сложный процесс, который в значительной степени зависит от множества факторов, таких как пол, этническая принадлежность, образ жизни и т.д., что делает крайне трудным изучение глобальных предшествующих возрастных изменений для точного прогнозирования старения для любого индивида. Существующие методики часто дают реалистичные и правдоподобные результаты старения, но изображения, подвергнутые старению, часто не соответствуют внешнему виду человека в целевом возрасте, и поэтому требуют персонализации. Во многих практических приложениях виртуального старения, например, в спецэффектах для фильмов и телешоу, доступ к личной фотоколлекции пользователя, отражающей процесс старения в небольшом временном интервале (20-40 лет), обычно имеется. Однако наивные попытки персонализировать глобальные техники старения на личных фотоальбомах часто терпят неудачу. Таким образом, мы предлагаем MyTimeMachine (MyTM), который сочетает в себе глобальные предшествующие возрастные изменения с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированной трансформации возраста. Мы представляем новую Адаптерную Сеть, которая объединяет персонализированные черты старения с глобальными чертами и генерирует изображение с измененным возрастом с помощью StyleGAN2. Мы также вводим три функции потерь для персонализации Адаптерной Сети с персонализированной потерей старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, обеспечивая высококачественные, сохраняющие идентичность и временно согласованные эффекты старения, которые соответствуют реальному внешнему виду в целевые возраста, демонстрируя свое превосходство над современными методами.

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

Как Чтение Манги Может Помочь Видео-Моделям Понимать Время

Видео Большие Языковые Модели (Vid-LLMs) достигли значительных успехов в понимании видеоконтента для диалога с вопросами и ответами. Однако они сталкиваются с трудностями при расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Временная Локализация Видео (VTG). Чтобы преодолеть этот разрыв, мы представляем Числовую Подсказку (NumPro), новаторский метод, который позволяет Vid-LLMs соединять визуальное понимание с временной локализацией, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: перелистывание страниц манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно улучшает производительность VTG ведущих Vid-LLMs без дополнительных вычислительных затрат. Более того, доработка на наборе данных, усиленном NumPro, устанавливает новый стандарт для VTG, превосходя предыдущие лучшие методы на 6.9% по mIoU для извлечения моментов и на 8.5% по mAP для обнаружения выделенных моментов. Код будет доступен по адресу https://github.com/yongliang-wu/NumPro.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

motionmaskvideo

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

llmpromptvisual

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.