Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "adaptation"

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

Оптимизация предпочтений с весами для имплицитной слияния моделей

Хотя слияние гетерогенных открытых LLM с различной архитектурой и размерами может потенциально интегрировать сильные стороны различных моделей, существующие методы слияния сталкиваются со значительными проблемами, такими как выравнивание словаря и объединение матриц распределения. Эти процессы не только сложны, но также подвержены высоким рискам возникновения шума и ошибок. В этой работе мы предлагаем неявный метод слияния, оптимизацию предпочтений с взвешенными наградами (WRPO), который использует оптимизацию предпочтений между исходными LLM и целевым LLM для эффективной передачи их возможностей. WRPO исключает необходимость в выравнивании словаря и слиянии матриц и может быть эффективно масштабирован для различных LLM. Для учета распределительных отклонений между исходными и целевыми LLM WRPO вводит прогрессивную стратегию адаптации, которая постепенно смещает зависимость от предпочтительных примеров от целевого LLM к исходным LLM. Обширные эксперименты на бенчмарках MT-Bench, AlpacaEval-2 и Arena-Hard демонстрируют, что WRPO последовательно превосходит существующие методы слияния знаний и различные базовые линии дообучения. При применении к LLaMA3-8B-Instruct в качестве целевой модели, WRPO достигает прироста в контролируемой длине на уровне 55.9% против GPT-4-Preview-1106 на AlpacaEval-2 и выигрыша в 46.2% против GPT-4-0314 на Arena-Hard. Наш код доступен по адресу https://github.com/SLIT-AI/WRPO.

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

UniPose: Единная мультимодальная структура для понимания, генерации и редактирования человеческой позы

Человеческая поза играет решающую роль в цифровую эпоху. Хотя недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и функционируют в изоляции, что ограничивает их применение в реальных сценариях. В этой статье представлена UniPose, структура, использующая большие языковые модели (LLMs) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D-позы SMPL. Конкретно, мы применяем токенизатор поз, чтобы преобразовать 3D-позы в дискретные токены поз, что позволяет бесшовную интеграцию в LLM в рамках единого словаря. Чтобы дополнительно улучшить возможности точного восприятия позы, мы оснастили UniPose смесью визуальных кодеров, среди которых специальный визуальный кодер для поз. Пользуясь единой стратегией обучения, UniPose эффективно передает знания между различными задачами, связанными с позами, адаптируется к невиданным задачам и демонстрирует расширенные возможности. Эта работа является первой попыткой создать универсальную структуру для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособные и даже превосходящие показатели UniPose в различных задачах, связанных с позами.

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

GazeGen: Революция в Визуальном Контенте с Помощью Взгляда

Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.