Персонализированные многомодальные большие языковые модели: Обзор

Многомодальные большие языковые модели (MLLM) становятся все более важными благодаря их выдающимся результатам и способности интегрировать различные типы данных, такие как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной статье мы представим всеобъемлющий обзор персонализированных MLLM, сосредоточив внимание на их архитектуре, методах обучения и применениях. Мы предложим интуитивную таксономию для классификации техник, используемых для персонализации MLLM для отдельных пользователей, и обсудим соответствующие методы. Кроме того, мы рассмотрим, как такие техники могут быть комбинированы или адаптированы, подчеркивая их преимущества и основные принципы. Также мы предоставим краткое резюме задач персонализации, исследованных в существующих исследованиях, вместе с оценочными метриками, которые часто используются. В заключение мы обозначим ключевые открытые проблемы.

Проблемы и техники персонализации

Персонализация в многомодальных больших языковых моделях сталкивается с несколькими значительными вызовами, связанными со сложностью объединения различных типов данных, извлечением релевантной информации и предоставлением пользовательских инсайтов. Для решения этих проблем исследователи ввели такие техники, как многомодальные инструкции, выравнивание и генерация.

Интеграция различных данных

MLLM необходимо объединять информацию из различных модальностей, таких как текст, изображения, аудио и видео, а также взаимодействие с пользователями. Каждая модальность имеет свои уникальные характеристики и может передавать разные типы информации. Например, текст может описывать продукт, в то время как изображение передает его визуальный облик. Интеграция этих гетерогенных данных представляет собой сложную задачу, требующую различных методов кодирования, обработок и стратегий выравнивания.

Шум и избыточность данных

Разные модальности часто содержат шумные, избыточные или нерелевантные данные. Например, изображения одного и того же продукта на платформах электронной коммерции могут иметь различное качество или избыточные характеристики, в то время как текстовые описания могут включать ненужные детали. Извлечение значимой информации из таких шумных данных является сложной задачей, поскольку модели должны фильтровать нерелевантный контент, не теряя важного контекста.

Гранулярное понимание многомодальных данных

LLM, основанные на тексте, хорошо обрабатывают лингвистическую информацию, такую как описания предметов. Однако визуальные входные данные часто содержат нюансы, такие как цвет, текстура и контекст, которые сложно захватить с помощью языка. Многомодальные LLM могут испытывать трудности с извлечением этих тонких визуальных деталей и их значимым связыванием с текстовыми описаниями, что приводит к потере глубины персонализации.

Масштабируемость и эффективность

По мере роста объема многомодального взаимодействия возрастают и вычислительные требования для обработки и персонализации рекомендаций. Модели должны обрабатывать большое количество взаимодействий пользователей в реальном времени на различных платформах, таких как социальные сети или сайты электронной коммерции. Это требует продвинутых стратегий распределения ресурсов, поскольку многомодальные большие языковые модели часто требуют значительных ресурсов GPU или TPU для параллельной обработки изображений, видео или аудио вместе с текстом.

Захват разнообразных и динамичных пользовательских предпочтений

Пользователи взаимодействуют с многомодальным контентом различными способами, и их предпочтения могут изменяться со временем. Точное захватывание этих предпочтений через модальности является сложной задачей, поскольку разные типы данных могут сигнализировать о конфликтующих или развивающихся интересах. Модель должна постоянно обновлять свое понимание, чтобы отражать новые паттерны поведения пользователей.

Персонализированная генерация текста MLLM

Персонализированные многомодальные инструкции

Персонализированные многомодальные инструкции сосредоточены на том, чтобы направлять MLLM на создание более адаптированного контента через структурированные подсказки и контекстуальные сигналы. Например, CGSMP демонстрирует управляемую текстовую суммизацию с использованием многомодальных подсказок на основе визуальных сущностей, что снижает количество галлюцинаций и улучшает качество суммирования.

Персонализированное многомодальное выравнивание

Для более точного отражения намерений пользователей в сгенерированном тексте некоторые работы исследуют выравнивание многомодальных входов с персонализированными предпочтениями пользователей. Например, MPDialog выравнивает персонажи и визуальные сцены для создания контекстно-согласованных диалогов.

Генерация персонализированного контента

Для генерации текста, который более точно соответствует специфическим предпочтениям пользователей, Wu и др. вводят фреймворк для персонализированного комментирования видео, где выбор клипов и процессы генерации текста адаптированы к предпочтениям пользователей.

Персонализированное многомодальное дообучение

Несмотря на то, что подсказки и инструкции могут не всегда обеспечивать удовлетворительные результаты, разработаны несколько методов дообучения, которые помогают лучше адаптировать предобученные MLLM к специфическим контекстам и задачам пользователей.

Персонализированная генерация изображений MLLM

Персонализированные многомодальные инструкции

Zhong и др. предлагают новую многомодальную подсказку, чтобы включить сложные пользовательские запросы для персонализированных инструкций. Это позволяет моделям генерировать изображения, которые соответствуют конкретным желаниям пользователей.

Персонализированное многомодальное выравнивание

MoMA является моделью без дообучения, которая объединяет характеристики референсного изображения с текстовыми подсказками, позволяя гибкое переосмысление и редактирование текстур при сохранении высокой детализации и идентичности.

Генерация персонализированных изображений

Kim и др. предлагают подход Layout-and-Retouch, который достигает лучшего разнообразия в персонализации генерации изображений. Instantbooth позволяет персонализировать генерацию без дообучения в тестовом режиме.

Персонализированное дообучение

MS-Diffusion вводит метод, ориентированный на нулевую выборку, для персонализации изображений с несколькими субъектами в диффузионных моделях. Он интегрирует Grounding Resampler для улучшения извлечения деталей субъектов и механизма многосубъектного перекрестного внимания.

Персонализированные рекомендации MLLM

Персонализированные многомодальные инструкции

Многомодальные инструкции в рекомендациях позволяют персонализировать намерения и предпочтения пользователей, анализируя взаимодействия с визуальными объектами. Это позволяет моделям лучше понимать предпочтения пользователей и намерения.

Персонализированное многомодальное выравнивание

Для унификации понимания и рассуждения о многомодальной информации MLLM могут транскрибировать визуальную информацию в текст, что позволяет улучшить точность рекомендаций.

Генерация персонализированных рекомендаций

Генеративные рекомендательные системы используют генерацию следующего токена как унифицированную политику рекомендаций. MLLM могут непосредственно генерировать элементы в виде языковых токенов, что позволяет улучшить объяснимость рекомендуемых элементов.

Персонализированное дообучение

Для более эффективного выравнивания персонализированных рекомендаций MLLM предлагаются несколько методов дообучения. GPT4Rec включает информацию о графовой модальности, что позволяет использовать структурное подсказывание.

Персонализированный поиск MLLM

Персонализированные многомодальные инструкции

Персонализированные многомодальные инструкции сосредоточены на улучшении способности MLLM адаптировать свои выходные данные на основе специфических потребностей и предпочтений пользователей.

Персонализированное многомодальное выравнивание

Для улучшения взаимодействия между MLLM и пользовательскими входными данными персонализированное многомодальное выравнивание обеспечивает адаптацию моделей к уникальным предпочтениям и контекстам.

Генерация персонализированных результатов поиска

Захват персонализированных пользовательских намерений для более точных результатов поиска является еще одной задачей для MLLM. Новые методы, такие как итеративное расширение пользовательских намерений, демонстрируют, как MLLM могут обрабатывать и составлять персонализированные многомодальные пользовательские входы.

Персонализированное дообучение

Для дальнейшего улучшения возможностей поиска MLLM в персонализированных контекстах разрабатываются различные техники дообучения. Эти методы показывают большой потенциал для улучшения производительности MLLM в персонализированных и разнообразных многомодальных задачах.

Оценка

Оценка персонализированных MLLM обычно классифицируется в зависимости от целевой задачи. Метрики, такие как MRR, Recall@k, Hit@k, AUC и NDCG@k, используются для оценки того, насколько хорошо модель ранжирует целевой элемент по сравнению с другими вариантами.

Дatasets

В последние годы в области многомодального и персонализированного обучения наблюдается увеличение числа наборов данных, каждый из которых создан для решения конкретных исследовательских задач. Эти наборы данных охватывают различные области, включая модели «визуальный-язык», сети сотрудничества агентов, поиск моды и задачи кросс-модального поиска.

Открытые проблемы и вызовы

Несмотря на достижения в области персонализированных MLLM, остаются открытыми несколько проблем. Необходимо разработать более надежные и комплексные наборы данных для улучшения как обучения, так и оценки. Кроме того, существует необходимость в развитии теоретических основ для техник, лежащих в основе персонализированных MLLM, что остается открытым вопросом для будущих исследований.

Заключение

В данной статье представлен всесторонний обзор персонализированных многомодальных больших языковых моделей, сосредоточенный на их архитектуре, методах обучения и приложениях. Мы предложили интуитивную таксономию для классификации техник, используемых для персонализации MLLM для отдельных пользователей, и обсудили соответствующие методы. Также мы исследовали, как такие техники могут быть объединены или адаптированы, подчеркивая их преимущества и основные принципы. В завершение мы обозначили ключевые открытые проблемы, которые остаются для решения. Этот обзор служит ценным ресурсом для исследователей и практиков, стремящихся понять и продвинуть развитие персонализированных многомодальных больших языковых моделей.

Статья на arxiv Оригинал pdf multimodal language architecture

Ай Дайджест

Персонализированные многомодальные большие языковые модели: Обзор

Проблемы и техники персонализации

Интеграция различных данных

Шум и избыточность данных

Гранулярное понимание многомодальных данных

Масштабируемость и эффективность

Захват разнообразных и динамичных пользовательских предпочтений

Персонализированная генерация текста MLLM

Персонализированные многомодальные инструкции

Персонализированное многомодальное выравнивание

Генерация персонализированного контента

Персонализированное многомодальное дообучение

Персонализированная генерация изображений MLLM

Персонализированные многомодальные инструкции

Персонализированное многомодальное выравнивание

Генерация персонализированных изображений

Персонализированное дообучение

Персонализированные рекомендации MLLM

Персонализированные многомодальные инструкции

Персонализированное многомодальное выравнивание

Генерация персонализированных рекомендаций

Персонализированное дообучение

Персонализированный поиск MLLM

Персонализированные многомодальные инструкции

Персонализированное многомодальное выравнивание

Генерация персонализированных результатов поиска

Персонализированное дообучение

Оценка

Дatasets

Открытые проблемы и вызовы

Заключение