Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "multimodal"

VisDoM: Мультимодальное QA с визуально насыщенными элементами

Понимание информации из коллекции нескольких документов, особенно тех, которые содержат визуально насыщенные элементы, важно для ответа на вопросы, основанные на документах. Эта статья представляет VisDoMBench, первый всесторонний бенчмарк, предназначенный для оценки систем QA в условиях многодокументной среды с богатым мультимодальным контентом, включая таблицы, диаграммы и слайды презентаций. Мы предлагаем VisDoMRAG, новый многомодальный подход к увеличению извлечения (RAG), который одновременно использует визуальное и текстовое RAG, комбинируя надежные возможности визуального извлечения с сложным языковым рассуждением. VisDoMRAG использует многоступенчатый процесс рассуждения, охватывающий отбор доказательств и последовательное рассуждение для параллельных текстовых и визуальных RAG-потоков. Ключевым новшеством VisDoMRAG является его механизм слияния модальностей с ограничениями по согласованности, который согласует процессы рассуждения между модальностями в моментInference для получения связного окончательного ответа. Это приводит к повышенной точности в сценариях, где критическая информация распределена между модальностями, и улучшенной проверяемости ответов за счет неявной атрибуции контекста. Через обширные эксперименты с использованием открытых и проприетарных больших языковых моделей мы оценили современные методы документального QA на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит однородные и длинные контекстные базовые LLM на 12-20% в конце концов многомодального документального QA.

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, аудио, видео). В этой работе мы предлагаем Моделирование Языка в Скрытом Пространстве (Latent Language Modeling, LatentLM), которое бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. В частности, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде скрытых векторов и вводим диффузию следующего токена для авторегрессионной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE, чтобы решить проблемы коллапса дисперсии, что имеет решающее значение для авторегрессионного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодальные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает положительных результатов по сравнению с Transfusion и векторизованными моделями в контексте увеличения токенов для обучения. В синтезе текста в речь LatentLM превосходит передовую модель VALL-E 2 по сходству с говорящим иrobustness, при этом требуя на 10 раз меньше шагов декодирования. Результаты подтверждают, что LatentLM является высокоэффективным и масштабируемым подходом для продвижения больших мультимодальных моделей.

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Мультимодальные большие языковые модели (МЛЛМ) достиглиrapid прогресса за последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (НУВП) — особенно со способностью точно описывать геометрические детали изображения. Эта способность жизненно важна для приложений в таких областях, как робототехника, анализ медицинских изображений и производство. В этой статье мы сначала представляем Геовосприятие, эталонный показатель, предназначенный для оценки способности МЛЛМ точно транскрибировать 2D геометрическую информацию из изображения. Используя этот эталон, мы демонстрируем ограничения ведущих МЛЛМ, а затем проводим всестороннее эмпирическое исследование, чтобы изучить стратегии улучшения их производительности по геометрическим задачам. Наши выводы подчеркивают преимущества некоторых архитектур моделей, техник обучения и стратегий данных, включая использование синтетических данных высокого качества и многоуровневое обучение с учебным планом данных. Особенно мы обнаруживаем, что учебный план данных позволяет моделям изучать сложные задачи понимания геометрии, которые они не могут усвоить с нуля. Основываясь на этих выводах, мы разрабатываем Евклид, семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Евклид обучался исключительно на синтетических мультимодальных данных, он демонстрирует сильные способности к обобщению на новых геометрических формах. Например, Евклид превосходит лучшую закрытую модель Gemini-1.5-Pro на 58.56% по определенным задачам эталона Геовосприятия и на 10.65% в среднем по всем задачам.

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Создание систем ИИ, которые могут взаимодействовать с окружающей средой в течение длительного времени, аналогично человеческому познанию, было давней исследовательской целью. Недавние достижения в области многомодальных больших языковых моделей (MLLM) сделали значительные успехи в понимании открытого мира. Однако задача непрерывного и одновременного восприятия, хранения памяти и рассуждений остается в значительной степени неисследованной. Текущие MLLM ограничены своей архитектурой «последовательность в последовательность», что ограничивает их способность обрабатывать вводимые данные и генерировать ответы одновременно, подобно неспособности мыслить во время восприятия. Более того, полагаться на долгие контексты для хранения исторических данных непрактично для долгосрочных взаимодействий, поскольку удержание всей информации становится дорогостоящим и неэффективным. Поэтому вместо того, чтобы полагаться на единую базовую модель для выполнения всех функций, этот проект черпает вдохновение из концепции специализированного универсального ИИ и вводит механизмы раздельного потокового восприятия, рассуждений и памяти, позволяя взаимодействовать в реальном времени с потоковым видео и аудио вводом. Предлагаемая структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль потокового восприятия: обрабатывает многомодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователей. (2) Модуль многомодальной долгосрочной памяти: интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности. (3) Модуль рассуждений: отвечает на запросы и выполняет задачи рассуждения, координируя работу с модулями восприятия и памяти. Этот проект имитирует человеческое подобное познание, позволяя многомодальным большим языковым моделям предоставлять непрерывные и адаптивные услуги с течением времени.

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

Масштабирование поиска во время вывода с помощью модели Vision Value для улучшения визуального восприятия

Несмотря на значительные достижения в области моделей визуального языка (VLM), отсутствуют эффективные подходы для повышения качества ответов за счет масштабирования вычислений во время вывода. Эта способность известна как ключевой шаг к самоусовершенствующимся моделям в недавних исследованиях больших языковых моделей. В этой статье мы представляем модель Vision Value Model (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. В частности, VisVM не только оценивает качество сгенерированного предложения на текущем шаге поиска, но и предсказывает качество последующих предложений, которые могут возникнуть из текущего шага, тем самым предоставляя долгосрочную ценность. Таким образом, VisVM отвлекает VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск с помощью VisVM значительно усиливает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций по сравнению с жадным декодированием и поисковыми методами с другими визуальными сигналами вознаграждения. Кроме того, мы обнаружили, что самообучение модели с помощью подписи, направляемой VisVM, улучшает производительность VLM по множеству мультимодальных бенчмарков, что указывает на потенциал разработки самоусовершенствующихся VLM. Наша модель ценности и код доступны по адресу https://github.com/si0wang/VisVM.

p-MoD: Эффективные Мультимодальные Большие Языковые Модели

Несмотря на выдающиеся результаты многомодальных больших языковых моделей (MLLM) в различных задачах, значительные затраты на обучение и вывод мешают их развитию. Большая часть вычислений связана с огромным объемом визуальных токенов, обрабатываемых декодером трансформера. В этой статье мы предлагаем создавать эффективные MLLM, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визуальные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLM не является тривиальной задачей. Чтобы справиться с проблемами стабильности обучения и вывода, а также ограниченными данными для обучения, мы адаптируем модуль MoD с помощью двух новых разработок: тангентально-контролируемой нормализации весов (TanhNorm) и симметричного переобучения токенов (STRing). Более того, мы наблюдаем, что визуальные токены проявляют более высокую избыточность в более глубоких слоях, и, следовательно, разрабатываем стратегию прогрессивного уменьшения соотношения (PRD), которая постепенно сокращает коэффициент удержания токенов слой за слоем, используя смещенный косинусный график. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно увеличивая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями по 14 контрольным точкам. Наша модель, p-MoD, сравнивается или даже превосходит производительность базовых моделей, при этом затрачивая всего 55,6% TFLOPs и 53,8% хранения кэша KV во время вывода и 77,7% GPU-часов во время обучения.

Video-3D LLM: Понимание 3D-сцен с помощью видео-репрезентаций

Быстрое развитие многомодальных больших языковых моделей (MLLM) значительно повлияло на различные многомодальные задачи. Однако эти модели сталкиваются с трудностями в задачах, которые требуют пространственного понимания в 3D-средах. Были предприняты усилия по улучшению MLLM, такие как внедрение признаков облака точек, однако остается значительный разрыв между изученными моделями представлениями и врожденной сложностью 3D-сцен. Это несоответствие в значительной степени обусловлено обучением MLLM на преимущественно 2D-данных, что ограничивает их эффективность в понимании 3D-пространств. Чтобы решить эту проблему, в данной работе мы предлагаем новую универсальную модель, т.е. Video-3D LLM, для понимания 3D-сцен. Рассматривая 3D-сцены как динамические видео и внедряя 3D-кодирование позиций в эти представления, наша Video-3D LLM более точно согласовывает представления видео с реальными пространственными контекстами. Кроме того, мы реализовали технику максимального охвата выборки для оптимизации баланса между вычислительными затратами и эффективностью производительности. Обширные эксперименты показывают, что наша модель достигает передового уровня производительности на нескольких эталонах понимания 3D-сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.

U-MATH: Новый стандарт для оценки математических навыков в LLM

Текущая оценка математических навыков в LLM ограничена, поскольку существующие эталоны либо относительно малы, сосредоточены преимущественно на задачах начальной и средней школы, либо не имеют разнообразия по темам. Более того, включение визуальных элементов в задачи остается в значительной степени недостаточно исследованным. Чтобы устранить эти пробелы, мы представляем U-MATH, новый эталон из 1100 неопубликованных открытых университетских задач, извлеченных из учебных материалов. Он сбалансирован по шести основным предметам, при этом 20% составляют мультимодальные задачи. Учитывая открытый характер задач U-MATH, мы используем LLM для оценки правильности сгенерированных решений. С этой целью мы выпускаем mu-MATH, набор данных для оценки возможностей LLM в оценке решений. Оценка LLM общего назначения, специализированных по математике и мультимодальных подчеркивает сложности, представляемые U-MATH. Наши результаты показывают, что LLM достигают максимальной точности всего 63% по текстовым задачам и даже более низких 45% по визуальным задачам. Оценка решений представляет собой сложную задачу для LLM, при этом лучший LLM-судья имеет F1-оценку 80% по mu-MATH.

I,NST-IT: Усовершенствование многомодального понимания экземпляров через явную настройку визуальных подсказок

Большие мультимодальные модели (LMM) достигли значительных прорывов благодаря развитию настройки инструкций. Однако, хотя существующие модели могут понимать изображения и видео на целостном уровне, им все еще трудно осваивать понимание на уровне экземпляров, которое требует более тонкого восприятия и согласования. Понимание на уровне экземпляров имеет решающее значение, так как оно сосредоточено на конкретных элементах, которые нас больше всего интересуют. Увлекательно, что существующие работы показывают, что передовые LMM демонстрируют сильные способности понимания экземпляров, когда им предоставляются явные визуальные подсказки. Вдохновленные этим, мы представляем автоматизированный процесс аннотирования, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляров из изображений и видео с помощью явного визуального побуждения для руководства по экземплярам. Основываясь на этом процессе, мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров через настройку инструкций с явными визуальными подсказками. Inst-IT состоит из эталона для диагностики мультимодального понимания на уровне экземпляров, набора данных для настройки инструкций в большом масштабе и непрерывной парадигмы обучения настройки инструкций для эффективного улучшения пространственно-временных способностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что с помощью Inst-IT наши модели достигают не только выдающихся результатов на Inst-IT Bench, но и демонстрируют значительные улучшения по различным базам понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляров, но и укрепляет общие способности к пониманию изображений и видео.

VideoICL: Новая эра в понимании видео с помощью итеративного обучения в контексте

Недавние достижения в области больших мультимодальных моделей видео (LMMs) значительно улучшили их способности к пониманию и рассуждению в видео. Однако их эффективность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как дообучение на OOD наборах данных, непрактичны из-за высокой вычислительной стоимости. Хотя обучение в контексте (ICL) с примерами демонстрации показало многообещающие результаты в языковых задачах и задачах с изображениями и языком без дообучения, применение ICL к задачам видео-языка сталкивается с трудностями из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Чтобы решить эти проблемы, мы предлагаем VideoICL, новую структуру обучения в контексте видео для OOD задач, которая вводит стратегию выбора релевантных примеров на основе сходства и итеративный подход к выводу, основанный на уверенности. Это позволяет выбирать наиболее релевантные примеры и сортировать их по сходству для использования при выводе. Если сгенерированный ответ имеет низкий уровень уверенности, наша структура выбирает новые примеры и снова выполняет вывод, итеративно уточняя результаты, пока не будет получен ответ с высокой уверенностью. Этот подход улучшает понимание видео OOD, расширяя эффективную длину контекста без высоких затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительные улучшения в производительности, особенно в специфических сценариях, закладывая основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL.

AV-OdysseyBench: Понимают ли ваши мультимодальные LLM действительно аудиовизуальную информацию?

Недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включая визуальные и аудиомодальности. Хотя эти модели демонстрируют впечатляющие результаты в широком спектре аудиовизуальных приложений, наш предложенный DeafTest показывает, что MLLM часто испытывают трудности с простыми задачами, которые люди считают тривиальными: 1) определить, какой из двух звуков громче, и 2) определить, какой из двух звуков имеет более высокий тон. Мотивированные этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов. Чтобы обеспечить точную и объективную оценку ответов MLLM, мы структурировали вопросы в формате множественного выбора, что устраняет необходимость в человеческой оценке или оценке с помощью LLM. Мы оцениваем ряд закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезную информацию для будущего сбора данных и разработки моделей.

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

Человеческие существа - социальные животные. Как наделить 3D автономных персонажей подобным социальным интеллектом, способным воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной задачей. В этой статье мы представляем SOLAMI, первую модельную структуру от начала до конца для социального видения-языка-действия (VLA) для погружающего взаимодействия с 3D автономными персонажами. В частности, SOLAMI строит 3D автономных персонажей с трех аспектов: (1) Архитектура социального VLA: Мы предлагаем единый социальный VLA фреймворк для генерации мультимодальных ответов (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социальных взаимодействий, сгенерированный автоматическим конвейером, использующим только существующие наборы данных движения для решения проблемы нехватки данных. (3) Погружающий VR интерфейс: Мы разрабатываем VR интерфейс, который позволяет пользователям погружающе взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и исследования пользователей показывают, что наша структура приводит к более точным и естественным реакциям персонажей (как в речи, так и в движении), которые соответствуют ожиданиям пользователей с более низкой задержкой.

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

VLSBench: Понимание визуальных утечек в многомодальной безопасности

Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

Critic-V: Улучшение Мультимодального Рассуждения в Моделях Языка и Зрения

Модели визуально-языкового моделирования (VLMs) продемонстрировали значительные достижения в задачах многомодального размышления. Однако они по-прежнему часто генерируют неточные или неуместные ответы из-за таких проблем, как галлюцинирующее понимание изображений или неосмысленные пути размышления. Чтобы справиться с этими проблемами, мы вводим Critic-V, новую структуру, вдохновленную парадигмой Actor-Critic, для повышения способности размышления VLMs. Эта структура расщепляет процесс размышления и процесс критики, интегрируя два независимых компонента: Reasoner, который генерирует пути размышления на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для уточнения этих путей. В этом подходе Reasoner генерирует ответы на размышления в соответствии с текстовыми подсказками, которые могут итеративно развиваться как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически основан на рамках обучения с подкреплением, где Critic предлагает критические замечания на естественном языке вместо скалярных наград, позволяя дать более тонкую обратную связь для повышения способности Reasoner в сложных задачах размышления. Модель Critic обучается с использованием Оптимизации Прямых Предпочтений (DPO), используя набор предпочтений критики, ранжированный по Награде на основе Правил (RBR), для улучшения своих критических возможностей. Результаты оценивания показывают, что структура Critic-V значительно превосходит существующие методы, включая GPT-4V, по 5 из 8 эталонов, особенно в отношении точности и эффективности размышлений. Сочетание динамической текстовой политики для Reasoner и конструктивной обратной связи от оптимизированного по предпочтениям Critic позволяет более надежный и чувствительный к контексту многомодальный процесс размышления. Наш подход предоставляет многообещающее решение для повышения надежности VLMs, улучшая их производительность в реальных приложениях с интенсивным размышлением, таких как автономное вождение и воплощенная интеллектуальность.

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

Интерпретация больших мультимодальных моделей: Разбор и управление внутренними представлениями

Недавние достижения в области крупных мультимодальных моделей (LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Возникает вопрос, как мы, как люди, можем понять их внутренние нейронные представления. В данной статье делается первый шаг к ответу на этот вопрос путем представления универсальной структуры для идентификации и интерпретации семантики внутри LMMs. В частности: 1) Сначала мы применяем разреженный автоэнкодер (SAE) для разделения представлений на понятные человеку характеристики. 2) Затем мы представляем автоматическую систему интерпретации для понимания открытых семантических характеристик, изученных SAE самими LMMs. Мы используем эту систему для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти характеристики могут эффективно направлять поведение модели. Наши результаты способствуют более глубокому пониманию того, почему LMMs превосходят в выполнении определенных задач, включая тесты на эмоциональный интеллект, и освещают природу их ошибок, а также потенциальные стратегии их исправления. Эти открытия предоставляют новые взгляды на внутренние механизмы LMMs и предполагают параллели с когнитивными процессами человеческого мозга.

Усиление способностей к мультимодальному рассуждению с помощью оптимизации смешанных предпочтений

Существующие открытые мультимодальные крупные языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и настройку под надзором. Однако эти модели страдают от сдвигов распределения, что ограничивает их мультимодальное рассуждение, особенно в задачах цепочки рассуждений (Chain-of-Thought, CoT). Чтобы решить эту проблему, мы вводим процесс оптимизации предпочтений (PO), чтобы улучшить мультимодальные способности к рассуждению MLLM. В частности: 1. **На стороне данных** мы разработали автоматизированный конвейер для создания предпочтительных данных, чтобы создать MMPR - высококачественный, крупномасштабный набор данных мультимодальных предпочтений для рассуждений. 2. **На стороне модели** мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанной Оптимизацией Предпочтений (Mixed Preference Optimization, MPO), который улучшает мультимодальную производительность CoT. Наш подход демонстрирует улучшение результатов на нескольких бенчмарках, особенно в задачах мультимодального рассуждения. В частности, наша модель, InternVL2-8B-MPO, достигла точности 67.0 на MathVista, опережая InternVL2-8B на 8.7 пунктов и показывая результаты, сравнимые с InternVL2-76B, которая в 10 раз больше. Мы надеемся, что это исследование вдохновит на дальнейшие улучшения в области MLLM. Код, данные и модель будут доступны для общественности.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

Символическая Оптимизация Предпочтений с Демонстрациями (SymDPO): Усиление Контекстно-Ориентированного Обучения Мультимодальных Моделей

По мере того как языковые модели продолжают масштабироваться, крупные языковые модели (LLM) демонстрируют развивающиеся возможности в области обучения в контексте (ICL), что позволяет им решать языковые задачи, предваряя несколько демонстраций в контексте (ICDs) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки крупных мультимодальных моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с серьезной проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это свидетельствует о том, что LMM не достигают эффективного согласования между мультимодальными демонстрациями и выходными данными модели. Для решения этой проблемы мы предлагаем Оптимизацию прямого предпочтения демонстрации символами (SymDPO). Конкретно, SymDPO стремится нарушить традиционный подход к созданию мультимодальных демонстраций, заменяя текстовые ответы в примерах на случайные символы. Это заставляет модель внимательно анализировать изображения в демонстрациях и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы проверяем эффективность этого метода на нескольких тестовых наборах, демонстрируя, что с помощью SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать эти знания для лучшего ответа на вопросы.

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

Гауссиан Энисинг: Интерактивная генерация 3D с помощью точечного облака и латентной диффузии

В то время как создание трехмерного контента значительно продвинулось, существующие методы все еще сталкиваются с проблемами, связанными с форматами ввода, дизайном латентного пространства и представлениями вывода. В данной статье представлена новая 3D генеративная структура, которая решает эти проблемы, предлагая масштабируемое, высококачественное 3D-генерация с интерактивным латентным пространством, структурированным как облако точек. Наша структура использует вариационный автокодировщик (VAE) с многовидовыми позированными RGB-D (глубина)-N (нормали) визуализациями в качестве входных данных, применяя уникальный дизайн латентного пространства, который сохраняет информацию о 3D-форме, и включает каскадную модель диффузии латентного пространства для улучшения разделения формы и текстуры. Предлагаемый метод, GaussianAnything, поддерживает многомодальное условное 3D-генерация, позволяя использовать в качестве входных данных облака точек, подписи и изображения с одной или нескольких точек зрения. Особенно стоит отметить, что новое латентное пространство естественно обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование, учитывающее 3D. Экспериментальные результаты показывают эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в текстовой, так и в изображения-условной 3D-генерации.

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."

Введение в CAD-MLLM: Объединение Генерации CAD с Мультимодальными Условиями

Эта статья направлена на разработку унифицированной системы генерации компьютерного проектирования (САПР), которая может легко создавать модели САПР на основе вводимых пользователем данных в виде текстового описания, изображений, облаков точек или их комбинации. В достижении этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические модели САПР, учитывая многомодальные входные данные. Конкретно, в рамках фреймворка CAD-MLLM, мы используем последовательности команд моделей САПР, а затем применяем продвинутые большие языковые модели (LLMs) для выравнивания пространства признаков между этими разнообразными многомодальными данными и векторизованными представлениями моделей САПР. Для облегчения обучения модели мы разработали комплексный конвейер конструирования и аннотации данных, который оснащает каждую модель САПР соответствующими многомодальными данными. Наш полученный набор данных, названный Omni-CAD, является первым многомодальным набором данных САПР, содержащим текстовое описание, изображения с различных ракурсов, точки и последовательность команд для каждой модели САПР. Он содержит примерно 450 тысяч экземпляров и их последовательностей построения САПР. Для тщательной оценки качества сгенерированных моделей САПР мы идем дальше текущих метрик оценки, сфокусированных на качестве восстановления, вводя дополнительные метрики, которые оценивают качество топологии и степень охвата поверхности. Результаты обширных экспериментов показывают, что CAD-MLLM значительно превосходит существующие методы условной генерации и остается высоко устойчивым к шумам и отсутствующим точкам. Страница проекта и дополнительные визуализации доступны по адресу: https://cad-mllm.github.io/

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

LLM2CLIP: Как мощные языковые модели улучшают визуальные представления

CLIP является одной из наиболее важных мультимодальных базовых моделей сегодня. Что обеспечивает возможности CLIP? Богатые сигналы надзора, предоставляемые естественным языком, носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрым развитием крупных языковых моделей (LLM), таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это ставит интригующий вопрос: можно ли использовать возможности LLM для дальнейшего улучшения мультимодального обучения представлений? Потенциальные выгоды от интеграции LLM в CLIP очевидны. Сильное текстовое понимание LLM может существенно улучшить способность CLIP обрабатывать подписи к изображениям, значительно повышая его способность работать с длинными и сложными текстами, что является известным ограничением оригинального CLIP. Более того, LLM обучаются на огромных корпусах текста, обладая знаниями открытого мира. Это позволяет им расширять информацию подписей во время обучения, повышая эффективность процесса обучения. В этой статье мы предлагаем LLM2CLIP, новый подход, который использует силу LLM для раскрытия потенциала CLIP. Путем тонкой настройки LLM в пространстве подписей с использованием контрастивного обучения, мы извлекаем его текстовые способности в выходные вложения, значительно улучшая дискриминационность текстовых выходных данных. Затем мы разрабатываем эффективный процесс обучения, где тонко настроенный LLM выступает в роли мощного учителя для визуального энкодера CLIP. Благодаря присутствию LLM, мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и возможностями текстового энкодера оригинального CLIP. Наши эксперименты показывают, что этот подход приносит значительные улучшения в кросс-модальных задачах.

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

DynaMem: Инновационный подход к динамической навигации и манипуляции роботов

Значительный прогресс достигнут в области мобильной манипуляции с открытым словарём, где цель заключается в том, чтобы робот выполнял задачи в любой среде, основываясь на описании на естественном языке. Однако большинство современных систем предполагают статическую среду, что ограничивает их применимость в реальных сценариях, где окружение часто меняется из-за вмешательства человека или действий самого робота. В данной работе мы представляем DynaMem, новый подход к мобильной манипуляции в открытом мире, который использует динамическую пространственно-семантическую память для представления окружения робота. DynaMem создает трехмерную структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы по локализации объектов с открытым словарём с помощью мультимодальных языковых моделей (LLMs) или открытых словарных признаков, генерируемых передовыми моделями видео-языкового взаимодействия. Благодаря DynaMem, наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере того, как объекты перемещаются, появляются или исчезают в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти оффлайн сценах и достигли среднего уровня успеха в подъеме и укладке объектов, не находящихся на месте, в 70%, что более чем в два раза превышает результаты лучших статических систем. Наш код, а также видео экспериментов и развертывания открыты для общественного доступа и могут быть найдены на сайте проекта: https://dynamem.github.io/

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.