Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "control"

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

Генерация видео с сохранением идентичности на основе текстовых описаний с использованием частотной декомпозиции

Создание видео с сохранением идентичности (IPT2V) стремится создавать высококачественные видео с последовательной человеческой идентичностью. Это важная задача в генерации видео, но она остается нерешенной проблемой для генеративных моделей. Эта статья продвигает техническую грань IPT2V в двух направлениях, которые не были разрешены в литературе: (1) Конвейер без настройки, без утомительной настройки случая за случаем, и (2) Эвристическая схема управления на основе DiT с учетом частот, сохраняющая идентичность. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность последовательной в созданном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где черты лица могут быть разложены на глобальные черты с низкой частотой и внутренние черты с высокой частотой. Во-первых, с точки зрения низкой частоты, мы вводим глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентном пространстве, создавая признаки, обогащенные информацией с низкой частотой. Эти признаки затем интегрируются в поверхностные слои сети, чтобы облегчить трудности обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты, мы разрабатываем локальный экстрактор лица, чтобы уловить детали с высокой частотой и внедрить их в блоки трансформеров, улучшая способность модели сохранять тонкие признаки. Мы предлагаем иерархическую стратегию обучения, чтобы использовать информацию о частоте для сохранения идентичности, трансформируя обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учетом частот предоставляет оптимальное решение для контроля моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

ROICtrl: Усовершенствование управления экземплярами в визуальной генерации

Естественный язык часто сталкивается с трудностями в точной ассоциации позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями с участием только нескольких доминирующих экземпляров. Для решения этой проблемы в данной работе улучшены диффузионные модели за счет введения контроля региональных экземпляров, где каждый экземпляр управляется ограничивающей рамкой, сопоставленной со свободной формой подписи. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения регионов интересов (ROI), что приводит либо к неточной инъекции координат, либо к большим вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное манипулирование ROI на картах признаков высокого разрешения для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных диффузионных моделей, который позволяет точно контролировать региональные экземпляры. ROICtrl совместим с дообученными диффузионными моделями сообщества, а также с существующими пространственными дополнениями (например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в контроле региональных экземпляров, одновременно значительно уменьшая вычислительные затраты.

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.