Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "temporal"

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).

TAPTRv3: Улучшение отслеживания точек в длинных видео

В данной работе мы представляем TAPTRv3, который основан на TAPTRv2 и направлен на улучшение его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, которая может точно отслеживать любую точку в реальных видеоматериалах без необходимости использования объема затрат. TAPTRv3 улучшает TAPTRv2, устраняя его недостаток в запрашивании высококачественных признаков из длинных видео, где целевые точки отслеживания обычно подвергаются увеличивающимся изменениям со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запрашивания признаков по пространственным и временным измерениям для более надежного отслеживания в длинных видео. Для лучшего запрашивания пространственных признаков мы представляем Контекстно-осознающее Перекрестное Внимание (CCA), которое использует окружающий пространственный контекст для повышения качества значений внимания при запросе признаков изображения. Для лучшего запрашивания временных признаков мы вводим Внимание с учетом Видимости на Долгом Времени (VLTA), чтобы проводить временное внимание ко всем прошлым кадрам с учетом их соответствующих видимостей, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его RNN-подобным долгосрочным моделированием. TAPTRv3 значительно превосходит TAPTRv2 на большинстве сложных наборов данных и достигает передовой производительности. Даже по сравнению с методами, обученными на данных большого масштаба, TAPTRv3 по-прежнему остается конкурентоспособным.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

Как Чтение Манги Может Помочь Видео-Моделям Понимать Время

Видео Большие Языковые Модели (Vid-LLMs) достигли значительных успехов в понимании видеоконтента для диалога с вопросами и ответами. Однако они сталкиваются с трудностями при расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Временная Локализация Видео (VTG). Чтобы преодолеть этот разрыв, мы представляем Числовую Подсказку (NumPro), новаторский метод, который позволяет Vid-LLMs соединять визуальное понимание с временной локализацией, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: перелистывание страниц манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно улучшает производительность VTG ведущих Vid-LLMs без дополнительных вычислительных затрат. Более того, доработка на наборе данных, усиленном NumPro, устанавливает новый стандарт для VTG, превосходя предыдущие лучшие методы на 6.9% по mIoU для извлечения моментов и на 8.5% по mAP для обнаружения выделенных моментов. Код будет доступен по адресу https://github.com/yongliang-wu/NumPro.

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.