Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "dynamics"

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

SplineGS: Новая эра синтеза новизны в динамических сценах

Синтезирование новых видов из монокулярных видео в естественной обстановке представляет собой сложную задачу из-за динамики сцены и отсутствия многоугловых подсказок. Для решения этой проблемы мы предлагаем SplineGS, свободную от COLMAP динамическую 3D Gaussian Splatting (3DGS) архитектуру для высококачественной реконструкции и быстрой отрисовки из монокулярных видео. В ее основе лежит новый метод Motion-Adaptive Spline (MAS), который представляет собой непрерывные динамические 3D Gaussian траектории с использованием кубических сплайнов Эрмита с малым числом контрольных точек. Для MAS мы вводим метод Motion-Adaptive Control points Pruning (MACP), чтобы смоделировать деформацию каждой динамической 3D Gaussian при различных движениях, постепенно уменьшая количество контрольных точек, сохраняя при этом целостность динамического моделирования. Кроме того, мы представляем стратегию совместной оптимизации для оценки параметров камеры и 3D Gaussian атрибутов, используя фотометрию и геометрическую согласованность. Это устраняет необходимость в предварительной обработке Structure-from-Motion и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы по качеству синтеза новых видов для динамических сцен из монокулярных видео, достигая скорости отрисовки в тысячи раз быстрее.

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

Модели генерации текста в видео продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамических сцен на основе составных текстовых запросов, таких как связывание атрибутов для нескольких объектов, временная динамика, связанная с разными объектами, и взаимодействие между объектами. Наша основная мотивация заключается в том, что сложные задачи можно разложить на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта в сложных целях. Мы предлагаем GenMAC, итеративную многоагентную структуру, которая позволяет составлять текстовую генерацию видео. Совместный рабочий процесс включает три этапа: Дизайн, Генерация и Повторный дизайн, с итеративным циклом между этапами Генерации и Повторного дизайна для постепенной проверки и уточнения созданных видео. Этап Повторного дизайна является самым сложным, его цель - проверить созданные видео, предложить исправления и переработать текстовые запросы, макеты кадра и масштабы руководства для следующей итерации генерации. Чтобы избежать галлюцинации одного агента MLLM, мы разбиваем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложений, агент исправлений и агент структурирования выходных данных. Более того, для решения разнообразных сценариев составной текстовой генерации видео мы разрабатываем механизм самостоятельного маршрутизации для адаптивного выбора подходящего агента исправлений из набора агентов исправлений, каждый из которых специализирован для одного сценария. Обширные эксперименты демонстрируют эффективность GenMAC, достигая лучших результатов в области составной текстовой генерации видео.

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Движение человека, по своей сути, является непрерывным и динамичным, что представляет собой значительные проблемы для генеративных моделей. Несмотря на их преобладание, дискретные методы квантования, такие как VQ-VAEs, страдают от врожденных ограничений, включая ограниченную выразительность и артефакты шума на уровне кадров. Непрерывные подходы, хотя и создают более плавные и естественные движения, часто терпят неудачи из-за высокой размерности и ограниченных обучающих данных. Чтобы решить этот "несоответствие" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные токены для непрерывного движения через декодирование исправленного потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает тонкие динамики и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основной архитектурой, наш метод повышает естественность, не жертвуя верностью к условным сигналам. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты укрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по адресу: https://whwjdqls.github.io/discord.github.io/.