Ай Дайджест - категория adapters

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.

2024-11-05efficiency benchmarks retrieval

HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

Мы предлагаем эффективный метод внедрения адаптеров в базовые модели преобразования текста в изображение, который позволяет выполнять сложные задачи на последующих этапах, сохраняя при этом способность базовой модели к обобщению. Основная идея данного метода заключается в оптимизации механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемов и показал значительные результаты. Мы надеемся, что эта работа может дать представление о задачах, выполняемых после обучения, для крупных моделей преобразования текста в изображение. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он представляет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем соответствующий код (https://songkey.github.io/hellomeme).

2024-11-04optimization adapters performance