Свежая выжимка ml и AI статей - каждый день
Современные модели зрения и языка (VLM), такие как CLIP, стали основным подходом к обучению представлений, объединяющих визуальные и текстовые данные. Эти модели демонстрируют выдающиеся способности в нулевом обучении, однако у них есть важные ограничения, такие как недостаточное понимание языка и ограниченная способность к композицией. В то же время большие модели зрения и языка (LVLM), которые комбинируют визуальные кодировщики с языковыми моделями (LLM), продемонстрировали способность к детальному рассуждению и пониманию. Однако их автогенеративная природа делает их менее подходящими для дискриминативных задач, таких как извлечение изображений по тексту.
В данной работе мы предлагаем новый подход к дообучаемости LVLM для дискриминативных задач, который позволяет объединить сильные стороны обеих моделей. Наша цель — преобразовать генеративную LVLM в дискриминативную, что откроет возможности для мощной дискриминации изображений и текста, а также улучшит понимание языка.
Несмотря на успехи моделей, таких как CLIP, они страдают от недостатков в понимании языка и композиций. Например, модели часто демонстрируют поведение "мешка слов", что означает, что они не могут правильно обрабатывать порядок слов или сложные семантические связи. Это приводит к тому, что даже при высоких показателях точности в задачах нулевого обучения, они могут не справляться с более сложными задачами, связанными с пониманием языка.
LVLM, такие как LLaVA, были разработаны для обработки изображений и текста совместно. Они показывают сильные способности к рассуждению и пониманию, однако их обучение происходит с использованием потерь предсказания следующего токена в автогенеративной манере. Это делает их менее подходящими для прямого использования в дискриминативных задачах. Совсем недавно было показано, что LVLM могут служить в качестве дискриминативных моделей нулевого обучения с использованием соответствующей настройки.
Мы представляем новый подход, который мы назвали VladVA (Vision-Language Adaptation for Discriminative Visual Assistant). Этот подход включает в себя несколько ключевых компонентов:
Оптимизационная структура: Мы разработали структуру, которая использует пары изображений и текста переменной длины и гранулярности для обучения модели. Мы применяем как контрастные, так и потери предсказания следующего токена, что позволяет раскрыть сильные дискриминационные и композиционные способности модели.
Эффективная адаптация параметров: Мы используем комбинацию мягкого промптинга и LoRA-адаптеров для эффективной настройки модели.
Сравнительные результаты: Мы показываем значительные улучшения по сравнению с современными моделями, такими как CLIP, на стандартных бенчмарках извлечения изображений и текста, а также в задачах композиций.
В нашей модели мы используем контрастивное выравнивание для обучения представлений изображений и текста. Это достигается с помощью симметричной контрастивной потери, которая заставляет представления изображений и текста быть близкими, если они семантически схожи, и далекими в противном случае. Мы применяем эту потерю к тем же токенам, которые используются для нулевого обучения, что позволяет начать обучение с оптимальной точки.
Мы применяем потери предсказания следующего токена для длинных описаний, что позволяет модели изучать связи между визуальными и текстовыми доменами. Это помогает модели развивать сильные способности к рассуждению и пониманию, что особенно важно для более сложных задач.
Мы объединяем потери предсказания следующего токена для длинных описаний и контрастные потери для коротких описаний в единой структуре. Это позволяет модели эффективно обучаться на данных переменной длины.
Мы также исследуем адаптацию параметров с использованием мягкого промптинга и LoRA-адаптеров. Это позволяет снизить вычислительные затраты и улучшить обобщающую способность модели.
Мы провели множество экспериментов, чтобы оценить эффективность нашего подхода по сравнению с современными моделями. Мы оценили производительность модели на стандартных бенчмарках извлечения изображений и текста, а также в задачах композиций.
Наша модель значительно превзошла существующие методы на таких наборах данных, как Flickr30k и COCO. Мы показали улучшения в точности извлечения изображений и текста, что подтверждает нашу гипотезу о том, что дискриминативная дообучаемость LVLM может привести к значительным улучшениям в производительности.
Мы также оценили производительность модели на задачах композиций, используя бенчмарки SugarCrepe и SugarCrepe++. Наша модель показала лучшие результаты по сравнению с другими современными подходами, что подтверждает ее способность к более сложному пониманию языка.
Мы провели абляционные исследования, чтобы оценить влияние различных компонентов нашей методологии. Результаты показали, что как мягкий промпт, так и LoRA-адаптеры вносят значительный вклад в общую производительность модели.
В данной работе мы представили новый подход к дискриминативной дообучаемости больших моделей зрения и языка, который позволяет значительно улучшить их способности к дискриминации изображений и текста. Мы продемонстрировали, что использование как коротких, так и длинных описаний для обучения модели с применением контрастивных и автогенеративных потерь ведет к значительным улучшениям по сравнению с существующими методами.
Наши результаты подтверждают, что правильная настройка и адаптация LVLM могут привести к эффективным и мощным решениям для задач, связанных с пониманием языка и изображений, открывая новые возможности для дальнейшего развития в этой области.