Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "resolution"

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является обновлением открытой модели языка и зрения (VLM) PaliGemma, основанной на семействе языковых моделей Gemma 2. Мы комбинируем визуальный кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы обеспечить их широкими знаниями для передачи через дообучение. В результате получается семья базовых моделей, охватывающая разные размеры моделей и разрешения, что позволяет нам исследовать факторы, влияющие на эффективность передачи (такие как скорость обучения), и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и разнообразие задач передачи за пределами PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблицы, распознавание молекулярной структуры, распознавание музыкальных партитур, а также длительное детализированное аннотирование и генерацию рентгеновских отчетов, по которым PaliGemma 2 достигает результатов на уровне передовых технологий.

FAM Diffusion: Модели диффузии с модуляцией частоты и внимания для генерации изображений высокого разрешения

Модели диффузии хорошо справляются с генерацией изображений высокого качества. Однако они эффективны только при работе с разрешением, используемым во время обучения. Инференс при масштабированном разрешении приводит к повторяющимся паттернам и структурным искажениям. Переобучение на более высоких разрешениях быстро становится непрактичным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, весьма желательны. Предыдущие работы страдали от частых артефактов и часто вносили большие задержки. Мы предлагаем два простых модуля, которые вместе решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль внимания (AM), который улучшает согласованность локальных текстурных паттернов, проблема, в значительной степени игнорируемая в предыдущих работах. Наш метод, названный Fam диффузия, может бесшовно интегрироваться в любую латентную модель диффузии и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в борьбе со структурными и локальными артефактами, в то время как количественные результаты показывают передовые достижения. Кроме того, наш метод избегает избыточных трюков инференса для улучшенной согласованности, таких как основанная на патчах или прогрессивная генерация, что приводит к незначительным задержкам.

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

MVPaint: Синхронизированная мульти-вью генерация для текстурирования 3D объектов

Текстурирование является ключевым этапом в рабочем процессе создания 3D-активов, который улучшает визуальное восприятие и разнообразие этих активов. Несмотря на последние достижения в области генерации текстур из текста (T2T), существующие методы часто дают неудовлетворительные результаты, в основном из-за локальных несоответствий, несогласованности по нескольким видам и их сильной зависимости от результатов разворачивания UV. Чтобы решить эти проблемы, мы предлагаем новую структуру генерации и доработки 3D текстурирования под названием MVPaint, которая способна создавать высококачественные, бесшовные текстуры, уделяя особое внимание согласованности многовидовой проекции. MVPaint в основном состоит из трех ключевых модулей: 1) **Синхронизированная генерация многовидовых изображений (SMG)**. На основе модели 3D-сетки MVPaint сначала одновременно генерирует изображения с нескольких видов, используя модель SMG, что приводит к грубым результатам текстурирования с непокрашенными частями из-за отсутствующих наблюдений. 2) **Пространственно-ориентированная 3D-ретушь (S3I)**. Для обеспечения полного текстурирования 3D, мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее не наблюдаемых областей. 3) **Уточнение UV (UVR)**. Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в UV-пространстве, который сначала выполняет сверхразрешение в UV-пространстве, за которым следует алгоритм сглаживания швов, ориентированный на пространство, для исправления пространственных несоответствий в текстурировании, вызванных разворачиванием UV. Кроме того, мы создаем две оценочные бенчмарки T2T: бенчмарк Objaverse T2T и бенчмарк GSO T2T, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие методы наилучших практик. В частности, MVPaint может генерировать высококачественные текстуры с минимальными проблемами Janus и значительно улучшенной согласованностью между видами.