Ай Дайджест - категория clip

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

2024-11-20language segmentation attention

LLM2CLIP: Как мощные языковые модели улучшают визуальные представления

CLIP является одной из наиболее важных мультимодальных базовых моделей сегодня. Что обеспечивает возможности CLIP? Богатые сигналы надзора, предоставляемые естественным языком, носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрым развитием крупных языковых моделей (LLM), таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это ставит интригующий вопрос: можно ли использовать возможности LLM для дальнейшего улучшения мультимодального обучения представлений? Потенциальные выгоды от интеграции LLM в CLIP очевидны. Сильное текстовое понимание LLM может существенно улучшить способность CLIP обрабатывать подписи к изображениям, значительно повышая его способность работать с длинными и сложными текстами, что является известным ограничением оригинального CLIP. Более того, LLM обучаются на огромных корпусах текста, обладая знаниями открытого мира. Это позволяет им расширять информацию подписей во время обучения, повышая эффективность процесса обучения. В этой статье мы предлагаем LLM2CLIP, новый подход, который использует силу LLM для раскрытия потенциала CLIP. Путем тонкой настройки LLM в пространстве подписей с использованием контрастивного обучения, мы извлекаем его текстовые способности в выходные вложения, значительно улучшая дискриминационность текстовых выходных данных. Затем мы разрабатываем эффективный процесс обучения, где тонко настроенный LLM выступает в роли мощного учителя для визуального энкодера CLIP. Благодаря присутствию LLM, мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и возможностями текстового энкодера оригинального CLIP. Наши эксперименты показывают, что этот подход приносит значительные улучшения в кросс-модальных задачах.

2024-11-11clip llm multimodal