AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

В современном мире онлайн-шоппинга и электронной коммерции видео с демонстрацией товаров играют ключевую роль в привлечении и удержании клиентов. Такие видео, создаваемые контент-креаторами и стримерами, часто называемыми анкорами, стали неотъемлемой частью онлайн-опыта покупок. В последние годы технологии генерации видео значительно продвинулись, предоставив возможность автоматизировать создание таких контентных материалов. Однако создание высококачественных, реалистичных видео с демонстрацией товаров остается сложной задачей, особенно когда речь идет о включении взаимодействий между человеком и объектом (Human-Object Interaction, HOI).

Основные Проблемы и Решения

Проблемы

Отсутствие HOI: Существующие методы генерации видео с помощью позы человека (pose-guided human video generation) не учитывают взаимодействие с объектами, что приводит к статичным представлениям товаров или их неправильной интерпретации как части одежды или фона.
Контроль Траектории Объекта: Контролировать движение объектов в видео сложно из-за необходимости точного определения их траектории в 3D пространстве.
Управление Окклюзией: Взаимодействие между объектами и руками человека часто приводит к проблемам с окклюзией (затемнением), что затрудняет точную генерацию.

Решения

AnchorCrafter представляет собой инновационную систему на базе диффузионных моделей, которая интегрирует HOI в процесс генерации видео. Основные инновации включают:

HOI-appearance Perception: Модуль, который улучшает восприятие внешнего вида объекта, используя многовидовые изображения и разделяя визуальные характеристики человека и объекта.
HOI-motion Injection: Внедрение движений, позволяющее точно контролировать траектории объектов и управлять окклюзией.
HOI-region Reweighting Loss: Специальная функция потерь, которая усиливает внимание модели к регионам взаимодействия между руками и объектами, улучшая детализацию объектов.

Технологическая Составляющая

Архитектура Модели

AnchorCrafter использует архитектуру видео-диффузионной модели, включающую:

Diffusion UNet: Сеть, которая добавляет временные слои для обработки последовательности кадров.
Variational Autoencoder (VAE): Для сжатия и восстановления кадров видео.

HOI-appearance Perception

Этот модуль:

Извлекает Визуальные Признаки: Использует VAE для получения латентных представлений человека и объекта.
Многовидовая Фьюжн Признаков: Обрабатывает изображения объекта с разных ракурсов для создания более точного 3D представления.
Двойной Адаптер Человек-Объект: Помогает разделить визуальные характеристики человека и объекта, улучшая их взаимодействие в видео.

HOI-motion Injection

Этот компонент:

Использует Глубину: Для точного определения траектории объекта в 3D пространстве.
Управляет Окклюзией: С помощью 3D меша рук и маскирования областей окклюзии.
Согласование Пространственного Позиции: Применяет матрицу сходства для корректировки позы человека и объекта в соответствии с исходным изображением.

HOI-region Reweighting Loss

Функция потерь, которая:

Усиливает Внимание к Взаимодействию: Присваивает больший вес регионам, где происходит взаимодействие между руками и объектом, улучшая качество генерации.

Эксперименты и Результаты

Настройки Экспериментов

Датасет: Собран датасет с видео взаимодействий человека и объекта, включающий 44 онлайн-видео и 307 реальных видео.
Метрики: Использовались FID, FVD, FID-VID, Object-IoU, Object CLIP-Score, и другие для оценки качества.

Основные Результаты

AnchorCrafter показал превосходные результаты по сравнению с существующими методами:

Качество Видео: Значительно улучшено благодаря интеграции HOI.
Сохранение Внешнего Вида Объекта: Высокие показатели по Object CLIP-Score.
Точность Движения Объектов: Улучшение Object-IoU.

Исследование и Ограничения

Абляционные Исследования: Показали важность каждого компонента системы.
Ограничения: Основное внимание уделяется жестким объектам, и модель не справляется с прозрачными или деформируемыми объектами.

Заключение

AnchorCrafter представляет собой значительный шаг вперед в области генерации видео с демонстрацией товаров, интегрируя взаимодействие между человеком и объектом. Эта система позволяет создавать более реалистичные и интерактивные видео, что может существенно улучшить опыт онлайн-шоппинга и маркетинга. В будущем планируется расширение возможностей модели для работы с более сложными типами объектов и улучшение алгоритмов управления окклюзией.

Статья на arxiv Оригинал pdf recognition fidelity interaction

Ай Дайджест