Ай Дайджест - категория mllm

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

В многомодальных больших языковых моделях (MLLM) широко используются визуальные трансформеры (ViT) для визуального кодирования. Однако их производительность при решении универсальных задач MLLM оставляет желать лучшего. Мы связываем это с нехваткой информации из разнообразных визуальных уровней, что мешает согласованию с различной семантической гранулярностью, необходимой для генерации языка. Чтобы решить эту проблему, мы представляем LLaVA-UHD v2, усовершенствованную MLLM, сосредоточенную вокруг иерархического оконного трансформера, который позволяет захватывать разнообразную визуальную гранулярность, конструируя и интегрируя пирамиду признаков высокого разрешения. В качестве проектировщика зрения и языка трансформер Hiwin включает два основных модуля: (i) обратная пирамида признаков, построенная с помощью процесса увеличения признаков, производного от ViT, с использованием высокочастотных деталей из пирамиды изображений, и (ii) иерархическое внимание окон, сосредоточенное на наборе ключевых признаков выборки в окнах разных масштабов, чтобы конденсировать многоуровневые карты признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных контрольных точках. Особенно примечательно, что наш дизайн обеспечивает среднее увеличение на 3,7% по 14 контрольным показателям по сравнению с базовым методом, в частности, на 9,3% на DocVQA. Мы сделали все данные, контрольную точку модели и код общедоступными, чтобы облегчить будущие исследования.

2024-12-19granularity attention encoding

OLA-VLM: Оптимизация визуального восприятия в многомодальных больших языковых моделях

Стандартная практика разработки современных многомодальных языковых моделей (MLLM) заключается в том, чтобы подавать признаки от визуальных кодеров в языковую модель (LLM) и обучаться с использованием естественного языка. В этой работе мы выдвигаем упущенную возможность оптимизировать промежуточные представления LLM с точки зрения визуального восприятия (цель), т.е. использование только естественного языка в качестве надзора является субоптимальным для способности MLLM к визуальному пониманию. С этой целью мы предлагаем OLA-VLM, первый подход, который дистиллирует знания в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель на этапе предобучения MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием естественного языка, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их последующей производительностью. Более того, при изучении нашего OLA-VLM мы наблюдаем улучшение качества представления благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит базовые уровни одно- и многокодировщиков, подтверждая превосходство нашего подхода по сравнению с явной подачей соответствующих признаков в LLM. В частности, OLA-VLM увеличивает производительность в среднем на 2,5% по различным тестам, с заметным улучшением на 8,7% в задаче Depth в CV-Bench. Наш код является открытым источником по адресу https://github.com/SHI-Labs/OLA-VLM.

2024-12-13supervision embedding representation

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

2024-11-27reasoning multimodal mllm

Усиление способностей к мультимодальному рассуждению с помощью оптимизации смешанных предпочтений

Существующие открытые мультимодальные крупные языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и настройку под надзором. Однако эти модели страдают от сдвигов распределения, что ограничивает их мультимодальное рассуждение, особенно в задачах цепочки рассуждений (Chain-of-Thought, CoT). Чтобы решить эту проблему, мы вводим процесс оптимизации предпочтений (PO), чтобы улучшить мультимодальные способности к рассуждению MLLM. В частности: 1. **На стороне данных** мы разработали автоматизированный конвейер для создания предпочтительных данных, чтобы создать MMPR - высококачественный, крупномасштабный набор данных мультимодальных предпочтений для рассуждений. 2. **На стороне модели** мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанной Оптимизацией Предпочтений (Mixed Preference Optimization, MPO), который улучшает мультимодальную производительность CoT. Наш подход демонстрирует улучшение результатов на нескольких бенчмарках, особенно в задачах мультимодального рассуждения. В частности, наша модель, InternVL2-8B-MPO, достигла точности 67.0 на MathVista, опережая InternVL2-8B на 8.7 пунктов и показывая результаты, сравнимые с InternVL2-76B, которая в 10 раз больше. Мы надеемся, что это исследование вдохновит на дальнейшие улучшения в области MLLM. Код, данные и модель будут доступны для общественности.

2024-11-22multimodal reasoning benchmark

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

2024-11-19vqa moe benchmark

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

2024-11-06vision computation efficiency