Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "motion"

Mogo: Иерархический Каскадный Трансформер для Генерации 3D Движений Человека

В области генерации текста в движение модели маскированного типа Bert (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с автогенеративными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто не обладают возможностью потокового вывода, необходимой для применения в видеоиграх и мультимедийных средах, что является внутренней особенностью моделей типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Чтобы превзойти качество моделей типа BERT, используя структуру типа GPT, не добавляя дополнительных моделей уточнения, которые усложняют масштабирование данных, мы предлагаем новую архитектуру Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные 3D движения человека, обучая единственную модель трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический резидульный векторный квантизационный вариационный автокодировщик, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический каузальный трансформер, отвечающий за генерирование базовых последовательностей движения авторегрессивным способом, одновременно выводя остатки через разные слои. Экспериментальные результаты демонстрируют, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превышая ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе HumanML3D Mogo достигает FID-оценки 0.079, превышая как модель типа GPT T2M-GPT (FID = 0.116), так и AttT2M (FID = 0.112), а также модель типа BERT MMM (FID = 0.080). Более того, наша модель демонстрирует лучшее количественное выполнение в генерации вне распределения.

motiongptmodel

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

Moto: Латентные токены движения как связующий язык для манипуляции роботами

Недавние разработки в области больших языковых моделей, предобученных на обширных корпусах, продемонстрировали значительные успехи в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время была ограничена высокой стоимостью данными с метками действий. Мы задаемся вопросом: учитывая обилие видео данных, содержащих знания, связанные с взаимодействием и доступных в качестве богатого "корпуса", можно ли эффективно применить аналогичный подход генеративного предобучения для улучшения обучения роботов? Ключевая задача заключается в том, чтобы определить эффективное представление для авторегрессионного предобучения, которое выгодно для задач манипуляции роботами. Вдохновленные тем, как люди осваивают новые навыки, наблюдая за динамическими окружениями, мы предлагаем, что эффективное обучение роботов должно подчеркивать знание, связанное с движением, которое тесно связано с низкоуровневыми действиями и является аппаратно-независимым, что облегчает перенос изученных движений на реальные действия робота. Для этой цели мы представляем Moto, который преобразует видеоконтент в скрытые последовательности токенов движения с помощью Латентного Токенизатора Движения, изучая мостовой "язык" движения из видео ненаблюдаемым образом. Мы предобучаем Moto-GPT через авторегрессию токенов движения, позволяя ему захватывать разнообразные визуальные знания о движении. После предобучения Moto-GPT демонстрирует многообещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траекторий через вероятность вывода. Для переноса усвоенных предварительных знаний о движении на реальные действия робота мы реализуем стратегию совместной донастройки, которая бесшовно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT демонстрирует превосходную устойчивость и эффективность на бенчмарках манипуляции роботами, подчеркивая его эффективность в переносе знаний с видеоданных на последующие задачи визуальной манипуляции.

Imagine360: Генерация Иммерсивного 360° Видео из Перспективных Анкеров

360^circ Видеоролики предлагают гипериммерсивный опыт, который позволяет зрителям исследовать динамическую сцену в полном объеме 360 градусов. Для достижения более удобного для пользователя и персонализированного создания контента в формате 360^circ видео мы стремимся преобразовать стандартные перспективные видео в 360^circ экваториальные видео. С этой целью мы представляем Imagine360, первую платформу для генерации видео, которая преобразует перспективные видео в 360^circ, создавая высококачественные 360^circ видео с богатыми и разнообразными движущимися паттернами из видео- якорей. Imagine360 изучает тонко детализированные сферические визуальные и движущиеся паттерны из ограниченных данных 360^circ видео с несколькими ключевыми разработками. 1) Во-первых, мы принимаем двуветвевый дизайн, который включает в себя ветвь денойзинга перспективного видео и панорамы, чтобы обеспечить локальные и глобальные ограничения для генерации 360^circ видео, с модулем движения и пространственными слоями LoRA, тонко настроенными на расширенных веб-360^circ видео. 2) Кроме того, devised an antipodal mask, чтобы захватить длинные зависимости движения, улучшая превращение камеры между противоположными пикселями на разных полушариях. 3) Чтобы обрабатывать различные входные перспективные видео, мы предлагаем дизайны, учитывающие высоту, которые адаптируются к изменяющимся маскам видео из-за изменения высоты между кадрами. Обширные эксперименты показывают, что Imagine360 достигает превосходного качества графики и согласованности движения среди современных методов генерации 360^circ видео. Мы считаем, что Imagine360 имеет потенциал для продвижения персонализированного, иммерсивного создания 360^circ видео.

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Движение человека, по своей сути, является непрерывным и динамичным, что представляет собой значительные проблемы для генеративных моделей. Несмотря на их преобладание, дискретные методы квантования, такие как VQ-VAEs, страдают от врожденных ограничений, включая ограниченную выразительность и артефакты шума на уровне кадров. Непрерывные подходы, хотя и создают более плавные и естественные движения, часто терпят неудачи из-за высокой размерности и ограниченных обучающих данных. Чтобы решить этот "несоответствие" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные токены для непрерывного движения через декодирование исправленного потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает тонкие динамики и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основной архитектурой, наш метод повышает естественность, не жертвуя верностью к условным сигналам. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты укрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по адресу: https://whwjdqls.github.io/discord.github.io/.

Morph: Бездвижный Фреймворк Оптимизации Физики для Генерации Человеческого Движения

Генерация человеческого движения играет жизненно важную роль в таких приложениях, как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к частому производству физически неправдоподобных движений с выраженными артефактами, такими как зависание и скольжение ног. В этой работе мы предлагаем Morph, систему оптимизации физики без движения, состоящую из генератора движений и модуля уточнения физики движений, для повышения физической правдоподобности без необходимости полагаться на дорогие данные реального мира. В частности, генератор движений отвечает за предоставление синтетических данных о движениях в большом масштабе, в то время как модуль уточнения физики движений использует эти синтетические данные для обучения имитатора движений в физическом симуляторе, обеспечивая физические ограничения для проекции шумных движений в физически правдоподобное пространство. Эти физически уточненные движения, в свою очередь, используются для дальнейшей тонкой настройки генератора движений, что дополнительно повышает его возможности. Эксперименты по задачам генерации текста в движение и музыки в танец показывают, что наша система достигает качественного уровня генерации движений, сохраняя при этом значительное улучшение физической правдоподобности.

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) показала высокие результаты в задачах сегментации объектов, но сталкивается с трудностями в визуальном отслеживании объектов, особенно при управлении сценам, где много быстро движущихся или самозатмевающих объектов. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для настройки характеристик изображения на следующий кадр, что приводит к распространению ошибок в видео. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Включая временные движения с предложенным механизмом выбора памяти, чувствительным к движению, SAMURAI эффективно предсказывает движение объектов и уточняет выбор масок, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность без обучения на различных тестовых наборах данных, демонстрируя свою способность к обобщению без настройки. В оценках SAMURAI показывает значительные улучшения в показателях успеха и точности по сравнению с существующими трекерами, с увеличением AUC на 7,1% на LaSOT_{ext} и на 3,5% AO на GOT-10k. Кроме того, он показывает конкурентоспособные результаты по сравнению с полностью контролируемыми методами на LaSOT, подчеркивая его надежность в сложных сценариях отслеживания и потенциал для реальных приложений в динамических средах. Код и результаты доступны по адресу https://github.com/yangchris11/samurai.

FlipSketch: От простых набросков к анимированным шедеврам

Анимации в стиле скетчей предлагают мощное средство для визуального рассказывания историй, от простых набросков в блокноте до профессиональных студийных производств. В то время как традиционная анимация требует команд квалифицированных художников для рисования ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные пути движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает волшебство анимации из блокнота - просто нарисуйте вашу идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует предварительные знания о движении из моделей диффузии текста в видео, адаптируя их для создания анимации скетчей через три ключевые инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность вводимого скетча через уточнение шума, и (iii) двойное внимание, которое позволяет плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические трансформации скетчей, захватывая выразительную свободу традиционной анимации. В результате получается интуитивно понятная система, которая делает создание анимации скетчей так же простым, как рисование и описание, сохраняя при этом художественную сущность ручной анимации.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео

Отслеживание плотного 3D движения с монокулярных видеозаписей остается сложной задачей, особенно когда целью является точность на уровне пикселей в течение длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения по всему видео. Наш подход использует совместный глобально-локальный механизм внимания для отслеживания с пониженным разрешением, за которым следует апсемплер на основе трансформера для достижения высокоточных прогнозов в высоком разрешении. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в большом масштабе, работая более чем в 8 раз быстрее предыдущих методов и достигая рекордной точности. Более того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких тестовых площадках, достигая новых рекордных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предлагает надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.