Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "pose"

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/