Ай Дайджест - категория granularity

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

В многомодальных больших языковых моделях (MLLM) широко используются визуальные трансформеры (ViT) для визуального кодирования. Однако их производительность при решении универсальных задач MLLM оставляет желать лучшего. Мы связываем это с нехваткой информации из разнообразных визуальных уровней, что мешает согласованию с различной семантической гранулярностью, необходимой для генерации языка. Чтобы решить эту проблему, мы представляем LLaVA-UHD v2, усовершенствованную MLLM, сосредоточенную вокруг иерархического оконного трансформера, который позволяет захватывать разнообразную визуальную гранулярность, конструируя и интегрируя пирамиду признаков высокого разрешения. В качестве проектировщика зрения и языка трансформер Hiwin включает два основных модуля: (i) обратная пирамида признаков, построенная с помощью процесса увеличения признаков, производного от ViT, с использованием высокочастотных деталей из пирамиды изображений, и (ii) иерархическое внимание окон, сосредоточенное на наборе ключевых признаков выборки в окнах разных масштабов, чтобы конденсировать многоуровневые карты признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных контрольных точках. Особенно примечательно, что наш дизайн обеспечивает среднее увеличение на 3,7% по 14 контрольным показателям по сравнению с базовым методом, в частности, на 9,3% на DocVQA. Мы сделали все данные, контрольную точку модели и код общедоступными, чтобы облегчить будущие исследования.

2024-12-19encoding attention vit

S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

Академическая область обучения визуальной навигации, управляемой инструкциями, может быть в общем случае подразделена на навигацию, основанную на высокоуровневом поиске по категориям, и навигацию, основанную на языковых инструкциях низкого уровня, в зависимости от детализации языковых указаний, где первая акцентирует внимание на процессе исследования, в то время как вторая сосредотачивается на выполнении детализированных текстовых команд. Несмотря на различия в фокусе этих задач, основные требования к интерпретации инструкций, пониманию окружающей среды и выводу решений по действиям остаются неизменными. В данной статье мы объединяем различные задачи навигации в единую и общую структуру - мы исследуем основные трудности дележа общих знаний и использования специфических задачам возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основании языковых инструкций с различной детальностью и динамических наблюдений. С помощью SAME мы представляем универсального агента, способного одновременно решать семь задач навигации, который превосходит или достигает высоко сопоставимых результатов с узкоспециализированными агентами.

2024-12-13instruction framework agents

Omegance: Один параметр для управления гранулярностью в синтезе на основе диффузии

2024-11-28control diffusion granularity

Персонализация крупных языковых моделей (LLM): Обзор

Персонализация крупных языковых моделей (LLM) в последнее время становится всё более важной благодаря широкому спектру применений. Несмотря на важность и недавние достижения, большинство существующих работ по персонализированным LLM сосредотачиваются либо полностью на (а) персонализированной генерации текста, либо на (б) использовании LLM для персонализированных приложений, таких как системы рекомендаций. В данной работе мы впервые мостим разрыв между этими двумя основными направлениями, вводя таксономию использования персонализированных LLM и суммируя ключевые различия и вызовы. Мы предлагаем формализацию основ персонализированных LLM, которая консолидирует и расширяет понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемых характеристик персонализированных LLM. Затем мы объединяем литературу по этим разнообразным областям и сценариям использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и применений персонализированных LLM. В заключение, мы выделяем вызовы и важные нерешённые проблемы, которые остаются актуальными. Объединяя и обозревая последние исследования с использованием предложенных таксономий, мы стремимся предоставить ясное руководство по существующей литературе и различным аспектам персонализации в LLM, поддерживая как исследователей, так и практиков.

2024-11-04evaluation personalization formalization