Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Morph: Бездвижный Физический Оптимизационный Фреймворк для Генерации Человеческого Движения

Генерация человеческого движения играет жизненно важную роль в таких приложениях, как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к частой генерации физически неправдоподобных движений с заметными артефактами, такими как левитация и соскальзывание ног. В данной работе мы предлагаем Morph, рамки оптимизации физики без движения, состоящие из генератора движений и модуля уточнения физики движений, для повышения физической правдоподобности без необходимости в дорогих данных движений из реального мира. В частности, Генератор Движений отвечает за предоставление масштабных синтетических данных о движениях, в то время как Модуль Уточнения Физики Движений использует эти синтетические данные для обучения имитатора движений внутри физического симулятора, накладывая физические ограничения для проекции шумных движений в физически правдоподобное пространство. Эти физически уточненные движения, в свою очередь, используются для доработки Генератора Движений, что дополнительно повышает его возможности. Эксперименты как в задачах генерации движений из текста, так и в задачах генерации танцев из музыки показывают, что наша система достигает передового качества генерации движений, значительно улучшая физическую правдоподобность.

3D Convex Splatting: Рендеринг Полей Яркости с Использованием 3D Гладких Выпуклостей

Недавние достижения в реконструкции радиантных полей, такие как 3D Gaussian Splatting (3DGS), достигли качественной синтезы новых видов и быстрого рендеринга, представляя сцены в виде композиций гауссовых примитивов. Однако 3D гауссианы имеют несколько ограничений для реконструкции сцен. Точно захватить жесткие края сложно, не увеличивая значительно количество гауссиан, что создает большую память. Более того, они имеют трудности с представлением плоских поверхностей, так как они рассеиваются в пространстве. Без рукотворных регуляризаторов они имеют тенденцию неправильно рассеиваться вокруг фактической поверхности. Чтобы обойти эти проблемы, мы представляем новый метод, названный 3D Convex Splatting (3DCS), который использует 3D гладкие выпуклые формы в качестве примитивов для моделирования геометрически значимых радиантных полей из изображений с многими взглядами. Гладкие выпуклые формы предлагают большую гибкость, чем гауссианы, позволяя лучше представлять 3D сцены с жесткими краями и плотными объемами, используя меньше примитивов. Оснащенный нашим эффективным растеризатором на основе CUDA, 3DCS демонстрирует превосходные результаты по сравнению с 3DGS в таких бенчмарках, как Mip-NeRF360, Tanks and Temples и Deep Blending. В частности, наш метод достигает улучшения до 0,81 в PSNR и 0,026 в LPIPS по сравнению с 3DGS, сохраняя высокие скорости рендеринга и уменьшая количество необходимых примитивов. Наши результаты подчеркивают потенциал 3D Convex Splatting стать новым стандартом для качественной реконструкции сцен и синтеза новых видов. Страница проекта: convexsplatting.github.io.

DiffusionDrive: Трунированная диффузионная модель для автономного вождения

Недавно модель диффузии стала мощной генеративной техникой для обучения роботизированным стратегиям, способной моделировать многомодальные распределения действий. Использование ее возможностей для автономного вождения является многообещающим направлением. Однако многочисленные этапы снижения шума в роботизированной политике диффузии и более динамичный, открытый характер дорожных сцен представляют собой значительные проблемы для генерации разнообразных действий вождения с реальной скоростью. Чтобы решить эти проблемы, мы предлагаем новую усеченную политику диффузии, которая включает в себя предварительные многомодальные якоря и укорачивает график диффузии, позволяя модели учиться снижению шума от закрепленного гауссовского распределения к многомодальному распределению действий вождения. Кроме того, мы разработали эффективный декодер каскадной диффузии для улучшенного взаимодействия с условным контекстом сцены. Предложенная модель, DiffusionDrive, демонстрирует уменьшение количества шагов снижения шума в 10 раз по сравнению с обычной политикой диффузии, обеспечивая превосходное разнообразие и качество всего за 2 шага. На ориентированном на планирование наборе данных NAVSIM, с согласованным базовым компонентом ResNet-34, DiffusionDrive достигает 88,1 PDMS без лишних наворотов, устанавливая новый рекорд, при этом работая со скоростью 45 FPS на NVIDIA 4090. Качественные результаты в сложных сценариях дополнительно подтверждают, что DiffusionDrive может надежно генерировать разнообразные правдоподобные действия вождения. Код и модель будут доступны по адресу https://github.com/hustvl/DiffusionDrive.

Оптимизация сегментации опухолей мозга с помощью MedNeXt: вызовы BraTS 2024 SSA и педиатрии

Определение основных патологических признаков на МРТ мозга имеет решающее значение для долгосрочного выживания пациентов с глиомами. Однако ручная сегментация занимает много времени, требует участия экспертов и подвержена человеческой ошибке. В связи с этим значительное внимание уделяется разработке методов машинного обучения, которые могут точно сегментировать опухоли в 3D мультимодальных МРТ сканированиях мозга. Несмотря на их достижения, современные модели часто ограничены данными, на которых они обучены, что вызывает обеспокоенность по поводу их надежности при применении к различным популяциям, которые могут вносить изменения в распределение данных. Такие изменения могут возникать из-за более низкого качества МРТ-технологий (например, в странах Южной Сахары) или различий в демографии пациентов (например, дети). Конкурс BraTS-2024 предоставляет платформу для решения этих проблем. В данном исследовании представлена наша методология сегментации опухолей в задачах BraTS-2024 SSA и Педиатрических Опухолей, использующая MedNeXt, комплексное моделирование и тщательную постобработку. Наш подход продемонстрировал хорошие результаты на невидимом валидационном наборе, достигнув среднего коэффициента схожести Дайса (DSC) 0,896 на наборе данных BraTS-2024 SSA и среднего DSC 0,830 на наборе данных педиатрических опухолей BraTS. Дополнительно наш метод достиг среднего расстояния Хаусдорфа (HD95) 14,682 на наборе данных BraTS-2024 SSA и среднего HD95 37,508 на наборе данных педиатрических опухолей BraTS. Наш репозиторий на GitHub доступен здесь: Репозиторий проекта: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

UniPose: Единная мультимодальная структура для понимания, генерации и редактирования человеческой позы

Человеческая поза играет решающую роль в цифровую эпоху. Хотя недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и функционируют в изоляции, что ограничивает их применение в реальных сценариях. В этой статье представлена UniPose, структура, использующая большие языковые модели (LLMs) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D-позы SMPL. Конкретно, мы применяем токенизатор поз, чтобы преобразовать 3D-позы в дискретные токены поз, что позволяет бесшовную интеграцию в LLM в рамках единого словаря. Чтобы дополнительно улучшить возможности точного восприятия позы, мы оснастили UniPose смесью визуальных кодеров, среди которых специальный визуальный кодер для поз. Пользуясь единой стратегией обучения, UniPose эффективно передает знания между различными задачами, связанными с позами, адаптируется к невиданным задачам и демонстрирует расширенные возможности. Эта работа является первой попыткой создать универсальную структуру для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособные и даже превосходящие показатели UniPose в различных задачах, связанных с позами.

Личное биометрическое защитное средство против злонамеренного редактирования изображений

Недавние достижения в области диффузионных моделей сделали генеративное редактирование изображений более доступным, позволяя творческие изменения, но поднимая этические вопросы, особенно в отношении злонамеренных редактирований человеческих портретов, которые угрожают частной жизни и безопасности идентичности. Существующие методы защиты в основном полагаются на адаптивные возмущения для нейтрализации редактирований, но часто терпят неудачу в ответ на разнообразные запросы редактирования. Мы предлагаем FaceLock, новый подход к защите портретов, который оптимизирует адаптивные возмущения для разрушения или значительного изменения биометрической информации, делая отредактированные результаты биометрически неузнаваемыми. FaceLock интегрирует распознавание лиц и визуальное восприятие в оптимизацию возмущений, чтобы обеспечить надежную защиту от различных попыток редактирования. Мы также подчеркиваем недостатки в широко используемых оценочных метриках и показываем, как их можно манипулировать, подчеркивая необходимость надежных оценок защиты. Эксперименты показывают, что FaceLock превосходит базовые данные в защите от злонамеренных редактирований и является устойчивым к методам очистки. Исследования по абляции подтверждают его стабильность и широкую применимость в различных алгоритмах редактирования на основе диффузии. Наша работа продвигает биометрическую защиту и закладывает основы для практик, сохраняющих конфиденциальность, в редактировании изображений. Код доступен по адресу: https://github.com/taco-group/FaceLock.

Интерливинг текстов и изображений: Новая эра генеративного ИИ

Многие реальные запросы пользователей (например, «Как сделать жареный рис с яйцом?») могут извлечь выгоду от систем, способных генерировать ответы с текстовыми шагами и сопутствующими изображениями, подобно кулинарным книгам. Модели, предназначенные для генерации чередующегося текста и изображений, сталкиваются с проблемами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную оценочную структуру для чередующейся генерации текста и изображений. ISG использует структуру графа сцены для захвата взаимосвязей между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях гранулярности: целостный, структурный, блочный и специфичный для изображения. Эта многоуровневая оценка позволяет провести тонкую оценку согласованности, последовательности и точности, а также предоставляет интерпретируемую обратную связь по вопросам и ответам. В дополнение к ISG мы представляем контрольный набор, ISG-Bench, охватывающий 1150 образцов в 8 категориях и 21 подкатегории. Этот контрольный набор данных включает сложные зависимости языка и зрения и золотые ответы для эффективной оценки моделей на задачах, ориентированных на зрительное восприятие, таких как перенос стиля, что является сложной областью для современных моделей. Используя ISG-Bench, мы демонстрируем, что недавние унифицированные модели языка и зрения показывают плохие результаты в генерации чередующегося контента. Хотя композиционные подходы, объединяющие отдельные языковые и изображенческие модели, демонстрируют улучшение на 111% по сравнению с унифицированными моделями на целостном уровне, их производительность остается субоптимальной как на блочном, так и на уровне изображений. Чтобы облегчить будущую работу, мы разработали ISG-Agent, базового агента, использующего конвейер "планировать-выполнить-совершенствовать" для вызова инструментов, достигая улучшения производительности на 122%.

Генерация видео с сохранением идентичности на основе текстовых описаний с использованием частотной декомпозиции

Создание видео с сохранением идентичности (IPT2V) стремится создавать высококачественные видео с последовательной человеческой идентичностью. Это важная задача в генерации видео, но она остается нерешенной проблемой для генеративных моделей. Эта статья продвигает техническую грань IPT2V в двух направлениях, которые не были разрешены в литературе: (1) Конвейер без настройки, без утомительной настройки случая за случаем, и (2) Эвристическая схема управления на основе DiT с учетом частот, сохраняющая идентичность. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность последовательной в созданном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где черты лица могут быть разложены на глобальные черты с низкой частотой и внутренние черты с высокой частотой. Во-первых, с точки зрения низкой частоты, мы вводим глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентном пространстве, создавая признаки, обогащенные информацией с низкой частотой. Эти признаки затем интегрируются в поверхностные слои сети, чтобы облегчить трудности обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты, мы разрабатываем локальный экстрактор лица, чтобы уловить детали с высокой частотой и внедрить их в блоки трансформеров, улучшая способность модели сохранять тонкие признаки. Мы предлагаем иерархическую стратегию обучения, чтобы использовать информацию о частоте для сохранения идентичности, трансформируя обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учетом частот предоставляет оптимальное решение для контроля моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

Мультимодальная генерация звуков для видео: концепция MultiFoley

Создание звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые существенно отличаются от реальных источников, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для звукового генерации под управлением видео, которая поддерживает мультимодальное управление с помощью текста, аудио и видео. Учитывая беззвучное видео и текстовый запрос, MultiFoley позволяет пользователям создавать чистые звуки (например, колеса скейтборда, вращающиеся без шума ветра) или более причудливые звуки (например, заставляя рычащий звук льва звучать как мяуканье кота). MultiFoley также позволяет пользователям выбирать аудио-ссылки из библиотек звуковых эффектов (SFX) или частичных видео для кондиционирования. Ключевым новшеством нашей модели является ее совместное обучение на интернет-видеодатасетах с низким качеством аудио и профессиональных записях SFX, что позволяет генерировать аудио высокого качества, полного диапазона (48kHz). Через автоматизированные оценки и исследования с участием человека мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при различных условных входах и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видеорезультатов: https://ificl.github.io/MultiFoley/

Omegance: Один параметр для управления гранулярностью в синтезе на основе диффузии

В этой работе мы вводим единственный параметр омега, чтобы эффективно контролировать гранулярность в основанном на диффузии синтезе. Этот параметр интегрируется на этапах удаления шума в обратном процессе диффузионной модели. Наш подход не требует повторной тренировки модели, архитектурных модификаций или дополнительных вычислительных затрат в процессе вывода, но позволяет точно контролировать уровень детализации в сгенерированных результатах. Более того, пространственные маски или графики удаления шума с различными значениями омега могут быть применены для достижения контроля гранулярности, специфичного для региона или временного шага. Предварительное знание композиции изображения из контрольных сигналов или эталонных изображений дополнительно упрощает создание точных масок омега для контроля гранулярности на конкретных объектах. Чтобы подчеркнуть роль параметра в контроле тонких вариаций деталей, техника названа Омеганс, сочетая "омега" и "нюанс". Наш метод демонстрирует впечатляющую производительность в различных задачах синтеза изображений и видео и адаптируем к продвинутым диффузионным моделям. Код доступен по адресу https://github.com/itsmag11/Omegance.

DreamCache: Легковесная и персонализированная генерация изображений без дообучения

Персонализированная генерация изображений требует моделей генерации текстов в изображения, которые захватывают основные характеристики объекта-референса, позволяя контролируемую генерацию в разных контекстах. Существующие методы сталкиваются с проблемами из-за сложных требований к обучению, высоких затрат на вывод, ограниченной гибкости или комбинации этих проблем. В этой статье мы представляем DreamCache, масштабируемый подход к эффективной и качественной персонализированной генерации изображений. Кэшируя небольшое количество характеристик изображений-референсов из подмножества слоев и одного временного шага предварительно обученного шумоподавляющего диффузора, DreamCache позволяет динамически модулировать характеристики сгенерированного изображения с помощью легких, обученных кондиционирующих адаптеров. DreamCache достигает современного уровня согласования изображений и текста, используя на порядок меньше дополнительных параметров и является как более вычислительно эффективным, так и универсальным, чем существующие модели.

Эффективное декодирование в визуальном авто-регрессионном моделировании: концепция Collaborative Decoding

В стремительно развивающейся области генерации изображений моделирование визуальной авто-регрессии (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего масштаба. Эта парадигма предлагает значительные улучшения в эффективности, масштабируемости и обобщении в условиях нулевых данных. Тем не менее, врожденная грубая к тонкой природе VAR приводит к удлиненной последовательности токенов, что приводит к непомерному потреблению памяти и вычислительным излишком. Чтобы решить эти узкие места, мы предлагаем совместное декодирование (CoDe), новую эффективную стратегию декодирования, разработанную для VAR-структуры. CoDe использует два критически важных наблюдения: значительно сниженные требования к параметрам на больших масштабах и эксклюзивные паттерны генерации на различных масштабах. Основываясь на этих идеях, мы разделяем процесс многомасштабного вывода на бесшовное сотрудничество между большой моделью и маленькой моделью. Большая модель выступает в роли «черновика», специализируясь на генерации низкочастотного контента на меньших масштабах, в то время как меньшая модель выступает в роли «усовершенствователя», сосредотачиваясь исключительно на предсказании высокочастотных деталей на больших масштабах. Это сотрудничество обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает увеличения скорости в 1.7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с лишь незначительным увеличением FID с 1.95 до 1.98. Когда шаги черновика еще больше сокращаются, CoDe может достичь впечатляющего коэффициента ускорения 2.9, достигая 41 изображения в секунду при разрешении 256x256 на одном GPU NVIDIA 4090, сохраняя при этом достойный FID 2.27. Код доступен по адресу https://github.com/czg1225/CoDe

ROICtrl: Улучшение управления экземплярами для визуальной генерации

Естественный язык часто испытывает трудности с точной ассоциацией позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями, содержащими лишь несколько доминирующих экземпляров. Чтобы устранить это ограничение, данная работа улучшает модели диффузии, вводя региональный контроль экземпляров, при котором каждый экземпляр контролируется ограничивающим прямоугольником, paired with a free-form caption. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения интересующих областей (ROI), что приводит либо к неточной инъекции координат, либо к высоким вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию, называемую ROI-Unpool. В совокупности, ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на высокоразрешающих картах признаков для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точный региональный контроль экземпляров. ROICtrl совместим с сообщества-подстроенными моделями диффузии, а также с существующими дополняющими модулями на основе пространственной информации (например, ControlNet, T2I-Adapter) и модулями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации многоприводных экземпляров. Эксперименты показывают, что ROICtrl достигает превосходной производительности в regional instance control, одновременно значительно снижая вычислительные затраты.

VideoLLM: Знание, Когда Говорить

Недавние исследования больших языковых моделей для видео (VideoLLM) в основном сосредоточены на архитектуре моделей и обучающих наборах данных, оставляя формат взаимодействия между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя целое видео и запрос в качестве входных данных, после чего модель генерирует ответ. Этот формат взаимодействия сдерживает применение VideoLLM в таких сценариях, как понимание стримингового видео, где видео не заканчивается и ответы требуются в реальном времени, а также приводит к неудовлетворительным результатам в задачах, чувствительных ко времени, которые требуют локализации сегментов видео. В этой статье мы сосредотачиваемся на формате взаимодействия видео-текст дует. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любое положение во время воспроизведения видео. Когда текстовое сообщение заканчивается, видео продолжает воспроизводиться, что аналогично взаимодействию двух исполнителей в дуэте. Мы создаем MMDuetIT, обучающий набор данных для видео-текста, предназначенный для адаптации VideoLLM к формату взаимодействия видео-текст дует. Мы также вводим задачу Multi-Answer Grounded Video Question Answering (MAGQA), чтобы оценить способность VideoLLM к ответам в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что использование формата взаимодействия видео-текст дует позволяет модели добиться значительных улучшений в различных задачах, чувствительных ко времени (76% CIDEr на плотном видеокаптировании YouCook2, 90% mAP на обнаружении выделенных моментов QVHighlights и 25% [email protected] на временной локализации видео Charades-STA) с минимальными затратами на обучение, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по адресу: https://github.com/yellow-binary-tree/MMDuet.

Обучение и оценка языковых моделей с использованием шаблонной генерации данных

Быстрое развитие больших языковых моделей (LLM), таких как GPT-3, PaLM и Llama, значительно преобразовало обработку естественного языка, продемонстрировав замечательные способности в понимании и генерации языка. Однако эти модели часто испытывают трудности с задачами, требующими сложного рассуждения, особенно в области математического решения задач, отчасти из-за нехватки крупных высококачественных наборов данных, специфичных для области, необходимых для обучения сложным способностям рассуждения. Чтобы решить эту проблему, мы представляем создание данных на основе шаблонов (TDG) - новый подход, который использует LLM (GPT-4) для автоматической генерации параметризованных мета-шаблонов, которые затем используются для синтеза огромного разнообразия качественных задач и решений. Используя TDG, мы создаем TemplateMath Часть I: TemplateGSM, набор данных, состоящий более чем из 7 миллионов синтетически сгенерированных задач по математике для начальной школы, каждая из которых сопровождается кодовыми и естественноязычными решениями, с возможностью генерировать эффективно неограниченное количество дополнительных задач. Этот набор данных устраняет нехватку крупных математических наборов данных и служит ценным ресурсом для предварительного обучения, тонкой настройки и оценки LLM в математическом рассуждении. Наш метод не только позволяет генерировать практически бесконечные данные, но и поднимает увеличение данных на новый уровень, используя GPT-4 для генерации мета-шаблонов, что обеспечивает разнообразные и качественные структуры задач. Набор данных TemplateMath Часть I: TemplateGSM доступен для публичного доступа по адресу https://huggingface.co/datasets/math-ai/TemplateGSM. Код доступен по адресу https://github.com/iiis-ai/TemplateMath.

Make-It-Animatable: Эффективная структура для создания анимационных 3D персонажей

3D-персонажи являются основой современных творческих индустрий, однако создание их для анимации часто требует значительных усилий в таких задачах, как создание ригов и скиннинг. Существующие автоматические инструменты для риггинга сталкиваются с несколькими ограничениями, включая необходимость ручной аннотации, жесткие топологии скелетов и ограниченную обобщаемость для различных форм и поз. Альтернативный подход заключается в том, чтобы генерировать анимируемые аватары, заранее прикрепленные к ригованной шаблонной сетке. Однако этот метод часто не обладает гибкостью и обычно ограничивается реалистичными человеческими формами. Чтобы решить эти проблемы, мы представляем Make-It-Animatable, новый метод на основе данных, который позволяет подготовить любую 3D-гуманоидную модель к анимации персонажей менее чем за одну секунду, независимо от её формы и поз. Наша унифицированная архитектура генерирует высококачественные весовые коэффициенты смешивания, кости и преобразования поз. Включив автоэнкодер формы на основе частиц, наш подход поддерживает различные 3D-репрезентации, включая сетки и 3D-гассовые пятна. Кроме того, мы используем представление от грубого к тонкому и стратегию моделирования с учетом структуры, чтобы обеспечить как точность, так и надежность, даже для персонажей с нестандартными структурами скелетов. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашей архитектуры. По сравнению с существующими методами наш подход демонстрирует значительные улучшения как в качестве, так и в скорости.

ChatRex: Объединение восприятия и понимания в многомодальных больших языковых моделях

Перception и понимание — два столба компьютерного зрения. В то время как многомодальные большие языковые модели (MLLM) продемонстрировали замечательные возможности визуального понимания, им, возможно, недостает точных восприятий, например, модель Qwen2-VL только достигает 43,9% коэффициента полноты на наборе данных COCO, что ограничивает многие задачи, требующие сочетания восприятия и понимания. В этой работе мы стремимся сократить этот разрыв в восприятии как с точки зрения проектирования модели, так и разработки данных. Сначала мы представляем ChatRex, MLLM с раздельным дизайном восприятия. Вместо того чтобы позволить LLM непосредственно предсказывать координаты коробок, мы передаем выходные коробки из универсальной сети предложений в LLM, позволяя ему выводить соответствующие индексы коробок, представляющие его результаты обнаружения, превращая задачу регрессии в основанную на извлечении задачу, с которой LLM справляется более эффективно. С точки зрения данных мы создаем полностью автоматизированный движок данных и конструируем набор данных Rexverse-2M, который обладает несколькими градуировками, чтобы поддерживать совместное обучение восприятию и пониманию. После стандартного двухэтапного обучения ChatRex демонстрирует сильные возможности восприятия, сохраняя при этом производительность многомодального понимания. Сочетание этих двух возможностей одновременно открывает множество привлекательных приложений, демонстрируя взаимодополняющие роли восприятия и понимания в MLLM. Код доступен по адресу https://github.com/IDEA-Research/ChatRex.

Адаптивное слепое универсальное восстановление изображений (ABAIR)

Слепые универсальные модели восстановления изображений направлены на восстановление высококачественного изображения из входных данных, испорченных неизвестными искажениями. Однако эти модели требуют, чтобы все возможные типы заболеваний были определены на этапе обучения, при этом демонстрируя ограниченную обобщаемость для невидимых ухудшений, что ограничивает их практическое применение в сложных случаях. В данной статье мы предлагаем простую, но эффективную адаптивную слепую универсальную модель восстановления (ABAIR), которая может устранять несколько деградаций, хорошо обобщается на невидимые деградации и эффективно включает новые деградации путем обучения небольшой доли параметров. Во-первых, мы обучаем нашу базовую модель на большом наборе данных естественных изображений с несколькими синтетическими деградациями, дополненными сегментационной головой для оценки типов деградации на пиксельном уровне, в результате чего получается мощный каркас, способный обобщаться на широкий спектр деградаций. Во-вторых, мы адаптируем нашу базовую модель к различным задачам восстановления изображений, используя независимые адаптеры с низким рангом. В-третьих, мы обучаемся адаптивно комбинировать адаптеры для универсальных изображений через гибкого и легковесного оценщика деградации. Наша модель мощна в обработке специфических искажений и гибка в адаптации к сложным задачам; она не только значительно превосходит достижения наивысшего уровня в настройках восстановления изображений с пятью и тремя задачами, но и демонстрирует улучшенную обобщаемость для невидимых деградаций, а также составных искажений.

Самопроверка длины: политика динамической длины для спекулятивного декодирования

Спекулятивное декодирование (SD) стало важной техникой для ускорения скорости вывода больших языковых моделей. Традиционные методы SD используют фиксированную длину эскиза, что игнорирует сложность генерации токенов в различных задачах. В результате в данной статье мы рассматриваем эту проблему и представляем SVIP - политику динамической длины эскиза, осознающую сложность, для систем спекулятивного декодирования. Основываясь на теоретической нижней границе коэффициента приемлемости токенов эскиза и его приближения во времени вывода, SVIP адаптивно определяет длину эскизных последовательностей на основе энтропии распределения каждого токена эскиза. Экспериментальные результаты на основных эталонах и рамках SD демонстрируют превосходную производительность SVIP, достигая ускорения времени выполнения до 20% на SpecBench по сравнению с базовыми методами SD и 60% ускорения на MT-Bench для генерации длинных форм до 8K токенов. Более того, SVIP полностью не требует обучения и совместим с любыми существующими методами SD, которые генерируют токены эскиза авто-регрессивно. Экспериментальные результаты также показывают, что SVIP обеспечивает постоянное улучшение времени выполнения на основе GliDe & CaPE и EAGLE-2.

CAT4D: Создание 4D-сцен с помощью многослойных видео-диффузионных моделей

Мы представляем CAT4D, метод создания 4D (динамических 3D) сцен из монохромного видео. CAT4D использует многопрофильную модель диффузии видео, обученную на разнообразных комбинациях датасетов, чтобы обеспечить новаторскую синтезу видов при любых заданных позах камеры и временных метках. В сочетании с новым подходом к выборке эта модель может преобразовать одно монохромное видео в многопрофильное видео, обеспечивая надежную 4D-реконструкцию через оптимизацию деформируемого 3D-гауссовского представления. Мы показываем конкурентоспособные результаты на бенчмарках синтеза новых видов и рекonstrukции динамических сцен, а также подчеркиваем творческие возможности генерации 4D-сцен из реальных или сгенерированных видео. Смотрите нашу страницу проекта для результатов и интерактивных демонстраций: cat-4d.github.io.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.