Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "self-supervised"

AnySat: Модель наблюдения за Землёй для любых разрешений, масштабов и модальностей

Геопространственные модели должны адаптироваться к разнообразию данных дистанционного зондирования Земли с точки зрения разрешений, масштабов и модальностей. Однако существующие подходы ожидают фиксированных входных конфигураций, что ограничивает их практическое применение. Мы предлагаем AnySat, мультимодель, основанную на архитектуре совместного встраивания предсказания (JEPA) и разрешающем пространственном кодере, что позволяет нам обучать одну модель на высокогетерогенных данных в самонаправленном режиме. Чтобы продемонстрировать преимущества этого унифицированного подхода, мы подготовили GeoPlex, сборник из 5 мультимодальных наборов данных с различными характеристиками и 11 различными датчиками. Затем мы одновременно обучаем одну мощную модель на этих разнообразных наборах данных. После донастройки мы получаем лучшие или близкие к современным достижениям результаты на наборах данных GeoPlex и 4 дополнительных для 5 задач мониторинга окружающей среды: картирование земельного покрова, идентификация видов деревьев, классификация типов культур, обнаружение изменений и сегментация наводнений. Код и модели доступны по адресу https://github.com/gastruc/AnySat.

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.

OmniCreator: Унифицированное поколение и редактирование видео с самообучением

Мы представляем OmniCreator, новую Framework, которая может осуществлять генерируемое текстом унифицированное (изображение + видео) создание, а также редактирование всего в одном месте. OmniCreator приобретает генеративные и универсальные редакционные возможности в самонаправленном режиме, принимая оригинальные текстово-видео пары в качестве условий, одновременно используя то же самое видео в качестве цели денойзинга для изучения семантического соответствия между видео и текстом. Во время вывода, когда представляется текстовый запрос и видео, OmniCreator способен генерировать целевой контент, который верен обоим, достигая универсального эффекта редактирования, который не ограничен в отличие от существующих редакционных работ, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролей (например, структурных условий, функций внимания или инверсии DDIM). С другой стороны, когда представлен только текстовый запрос, OmniCreator становится генеративным, создавая высококачественное видео в результате изученного семантического соответствия. Важно отметить, что те же возможности распространяются на изображения как есть, что делает OmniCreator поистине унифицированной Framework. Более того, из-за отсутствия существующих бенчмарков для генеративного редактирования видео, мы представляем набор данных OmniBench-99, предназначенный для комплексной оценки производительности моделей генеративного редактирования видео. Обширные эксперименты демонстрируют, что OmniCreator демонстрирует значительное превосходство над всеми другими моделями.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

Изучение 3D-представлений с помощью процедурных 3D-программ

Самонадзорное обучение (self-supervised learning) выделяется как перспективный метод для получения переносимых 3D представлений из неразмеченных облаков 3D точек. В отличие от 2D изображений, которые широко доступны, получение 3D активов требует специализированных знаний или профессионального оборудования для 3D сканирования, что затрудняет масштабирование и вызывает вопросы авторского права. Чтобы решить эти проблемы, мы предлагаем обучение 3D представлений на основе процедурных 3D программ, которые автоматически генерируют 3D формы с использованием простых примитивов и аугментаций. Замечательно, что несмотря на отсутствие семантического содержания, 3D представления, обученные на этом синтезированном наборе данных, показывают результаты, сравнимые с передовыми представлениями, обученными на семантически узнаваемых 3D моделях (например, самолетах), в различных задачах 3D, включая классификацию форм, сегментацию частей и заполнение маскированных облаков точек. Наш анализ также указывает, что текущие методы самонадзорного обучения в основном захватывают геометрические структуры, а не высокие семантические уровни.