Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "animation"

AniDoc: Упрощение создания анимации с помощью ИИ

Производство 2D-анимации следует стандартному рабочему процессу в отрасли, включая четыре основных этапа: разработку персонажей, анимацию основных кадров, промежуточную анимацию и раскраску. Наша работа сосредоточена на снижении трудозатрат в указанном процессе за счет использования потенциала все более мощного генеративного ИИ. Используя модели видеодифузии в качестве основы, AniDoc выступает в качестве инструмента для цветового обозначения видеолинейного искусства, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с заданными характеристиками персонажа. Наша модель использует сопоставление соответствия в качестве явного руководства, что обеспечивает высокую устойчивость к изменениям (например, в позе) между эталонным персонажем и каждым кадром линейного искусства. Кроме того, наша модель может даже автоматизировать процесс промежуточной анимации, что позволяет пользователям легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальные и конечные эскизы. Наш код доступен по адресу: https://yihao-meng.github.io/AniDoc_demo.

Дисентанглинг позы: управление анимацией человеческих изображений

Контролируемая анимация человеческого изображения направлена на генерацию видео из эталонных изображений с использованием управляющих видеозаписей. Из-за ограниченных контрольных сигналов, предоставляемых разреженным управлением (например, поза скелета), в недавних работах были предприняты попытки ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить согласование движений. Однако такое строгое плотное управление ухудшает качество сгенерированного видео, когда форма тела эталонного персонажа значительно отличается от формы тела в управляющем видео. В этой статье мы представляем DisPose, чтобы извлечь более универсальные и эффективные контрольные сигналы без дополнительного плотного ввода, который разделяет разреженную позу скелета в анимации человеческого изображения на руководство полем движений и соответствие ключевым точкам. В частности, мы генерируем плотное поле движений из разреженного поля движений и эталонного изображения, что обеспечивает плотное руководство на уровне регионов, сохраняя возможность обобщения разреженного контроля позы. Мы также извлекаем диффузионные признаки, соответствующие ключевым точкам позы из эталонного изображения, и затем эти точечные признаки передаются на целевую позу для предоставления четкой идентификационной информации. Чтобы бесшовно интегрироваться в существующие модели, мы предлагаем гибридный ControlNet, который улучшает качество и согласованность сгенерированных видео, замораживая параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

Make-It-Animatable: Эффективная структура для создания анимационных 3D персонажей

3D-персонажи являются основой современных творческих индустрий, однако создание их для анимации часто требует значительных усилий в таких задачах, как создание ригов и скиннинг. Существующие автоматические инструменты для риггинга сталкиваются с несколькими ограничениями, включая необходимость ручной аннотации, жесткие топологии скелетов и ограниченную обобщаемость для различных форм и поз. Альтернативный подход заключается в том, чтобы генерировать анимируемые аватары, заранее прикрепленные к ригованной шаблонной сетке. Однако этот метод часто не обладает гибкостью и обычно ограничивается реалистичными человеческими формами. Чтобы решить эти проблемы, мы представляем Make-It-Animatable, новый метод на основе данных, который позволяет подготовить любую 3D-гуманоидную модель к анимации персонажей менее чем за одну секунду, независимо от её формы и поз. Наша унифицированная архитектура генерирует высококачественные весовые коэффициенты смешивания, кости и преобразования поз. Включив автоэнкодер формы на основе частиц, наш подход поддерживает различные 3D-репрезентации, включая сетки и 3D-гассовые пятна. Кроме того, мы используем представление от грубого к тонкому и стратегию моделирования с учетом структуры, чтобы обеспечить как точность, так и надежность, даже для персонажей с нестандартными структурами скелетов. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашей архитектуры. По сравнению с существующими методами наш подход демонстрирует значительные улучшения как в качестве, так и в скорости.

FlipSketch: От простых набросков к анимированным шедеврам

Анимации в стиле скетчей предлагают мощное средство для визуального рассказывания историй, от простых набросков в блокноте до профессиональных студийных производств. В то время как традиционная анимация требует команд квалифицированных художников для рисования ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные пути движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает волшебство анимации из блокнота - просто нарисуйте вашу идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует предварительные знания о движении из моделей диффузии текста в видео, адаптируя их для создания анимации скетчей через три ключевые инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность вводимого скетча через уточнение шума, и (iii) двойное внимание, которое позволяет плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические трансформации скетчей, захватывая выразительную свободу традиционной анимации. В результате получается интуитивно понятная система, которая делает создание анимации скетчей так же простым, как рисование и описание, сохраняя при этом художественную сущность ручной анимации.