Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "fusion"

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

Оптимизация предпочтений с весами для имплицитной слияния моделей

Хотя слияние гетерогенных открытых LLM с различной архитектурой и размерами может потенциально интегрировать сильные стороны различных моделей, существующие методы слияния сталкиваются со значительными проблемами, такими как выравнивание словаря и объединение матриц распределения. Эти процессы не только сложны, но также подвержены высоким рискам возникновения шума и ошибок. В этой работе мы предлагаем неявный метод слияния, оптимизацию предпочтений с взвешенными наградами (WRPO), который использует оптимизацию предпочтений между исходными LLM и целевым LLM для эффективной передачи их возможностей. WRPO исключает необходимость в выравнивании словаря и слиянии матриц и может быть эффективно масштабирован для различных LLM. Для учета распределительных отклонений между исходными и целевыми LLM WRPO вводит прогрессивную стратегию адаптации, которая постепенно смещает зависимость от предпочтительных примеров от целевого LLM к исходным LLM. Обширные эксперименты на бенчмарках MT-Bench, AlpacaEval-2 и Arena-Hard демонстрируют, что WRPO последовательно превосходит существующие методы слияния знаний и различные базовые линии дообучения. При применении к LLaMA3-8B-Instruct в качестве целевой модели, WRPO достигает прироста в контролируемой длине на уровне 55.9% против GPT-4-Preview-1106 на AlpacaEval-2 и выигрыша в 46.2% против GPT-4-0314 на Arena-Hard. Наш код доступен по адресу https://github.com/SLIT-AI/WRPO.

VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

Обнаружение видеогармонии и извлечение моментов (HD/MR) имеют важное значение в анализе видео. Недавние модели предсказания, основанные на трансформерах, часто упускают из виду динамику между задачами и согласование и уточнение видео и текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальным показателям в захвате взаимозависимости между видео и текстовыми модальностями. Хотя большие языковые и языковые-видевые модели (LLM/LVLMs) стали более заметными в различных областях, их применение в этой области остаётся относительно недостаточно исследованным. Мы предлагаем VideoLights, новую HD/MR платформу, которая решает эти ограничения через (i) полноразмерные модули проекции и уточнения функций с потерей согласования для лучшего согласования видео-текстовых функций, (ii) двунаправленную сеть кросс-модального слияния для сильно связанного запроса с учетом представлений клипов, и (iii) однонаправленный механизм обратной связи для совместных задач, который усиливает обе задачи через корреляцию. В дополнение к этому, (iv) мы вводим жёсткие положительные/отрицательные потери для адаптивного штрафования ошибок и улучшенного обучения, и (v) используем LVLMs, такие как BLIP-2, для улучшенной мультимодальной интеграции функций и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLMs. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют состояние на индексе состояния. Код и модели доступны на https://github.com/dpaul06/VideoLights.

EfficientViM: Эффективная архитектура для компьютерного зрения

Для развертывания нейронных сетей в условиях ограниченных ресурсов ранее были разработаны легкие архитектуры с использованием свертки и внимания для захвата локальных и глобальных зависимостей соответственно. В последнее время модель пространства состояний стала эффективным средством глобального взаимодействия токенов благодаря своей благоприятной линейной вычислительной стоимости в отношении количества токенов. Тем не менее, эффективные визуальные основы, построенные с использованием SSM, были менее исследованы. В этой статье мы представляем Efficient Vision Mamba (EfficientViM) — новую архитектуру, основанную на смешивателе скрытых состояний с двойственностью состояния пространства (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD, чтобы включить операцию смешивания каналов в скрытых состояниях. Дополнительно мы предлагаем многоуровневую фузию скрытых состояний, чтобы дополнительно усилить представительную способность скрытых состояний, и предоставляем дизайн, смягчающий узкие места, вызванные операциями с памятью. В результате семейство EfficientViM достигает нового уровня скорости и точности на ImageNet-1k, предлагая до 0,7% улучшение производительности по сравнению со второй моделью SHViT с более быстрой скоростью. Более того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или применении обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

Ключевые кадры и маскирование Mamba для расширенного генерирования движений

Перевод на русский: Генерация движений человека является передовой областью исследований в генеративном компьютерном зрении с перспективными применениями в создании видео, разработке игр и манипуляциях робототехники. Недавно разработанная архитектура Mamba показывает многообещающие результаты в эффективном моделировании длинных и сложных последовательностей, однако остаются две значительные проблемы: Во-первых, непосредственное применение Mamba к расширенной генерации движений неэффективно, поскольку ограниченная емкость неявной памяти приводит к её затуханию. Во-вторых, Mamba испытывает трудности с мультимодальной интеграцией по сравнению с трансформерами и не соответствует текстовым запросам, часто путая направления (влево или вправо) или опуская части длинных текстовых запросов. Чтобы решить эти проблемы, наша статья предлагает три ключевых вклада: Во-первых, мы вводим KMM, новую архитектуру с моделированием маскирования ключевых кадров, разработанную для улучшения фокусировки Mamba на ключевых действиях в сегментах движения. Этот подход решает проблему затухания памяти и представляет собой пионерский метод в настройке стратегического маскирования на уровне кадров в системах моделирования последовательностей (SSM). Кроме того, мы разработали парадигму контрастивного обучения для решения проблемы мультимодальной интеграции в Mamba и улучшения согласованности движения с текстом. Наконец, мы провели обширные эксперименты на наборе данных go-to, BABEL, достигнув рекордных результатов с сокращением более чем на 57% в FID и на 70% параметров по сравнению с предыдущими методами, установившими стандарт качества. Смотрите сайт проекта: https://steve-zeyu-zhang.github.io/KMM