Перенос знаний между модальностями с использованием текстового надзора

Может ли человек, который внезапно обрел зрение, распознавать объекты, которые он ранее знал только на ощупь? Этот философский вопрос, впервые поставленный Уильямом Молинью в 1668 году, остается актуальным в области нейронауки зрения. Исследования показывают, что хотя это не происходит мгновенно после восстановления зрения, кросс-модальные связи развиваются быстро у людей в течение нескольких дней.

В этой статье мы рассмотрим аналогичный вопрос, но в контексте машинного обучения и мультимодальных нейронных сетей. Наша цель — ответить на вопрос: может ли модель, уже обладающая некоторыми визуальными знаниями о мире, научиться новым концепциям, используя только их текстовое описание? Мы предполагаем, что предварительно обученные визуальные модели уже содержат достаточно низкоуровневых визуальных признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций.

Перенос знаний

Мы вводим метод, который называем Переносом знаний. Этот метод позволяет обучать новые концепции, используя только их текстовое описание. Аналогично человеческому восприятию, мы используем кросс-модальное взаимодействие для введения новых концепций. Наша гипотеза заключается в том, что в предварительно обученном визуальном энкодере уже содержатся достаточные низкоуровневые признаки, которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций.

Принципы работы

Предварительное обучение: Визуальный энкодер предварительно обучается на большом наборе изображений и текстов, что позволяет ему извлекать общие визуальные признаки.
Текстовое описание: Предоставляется текстовое описание новой концепции, которую мы хотим ввести в модель.
Выравнивание признаков: Мы выравниваем известные низкоуровневые визуальные признаки энкодера с их высокоуровневым текстовым описанием.
Обучение: Используя метод инверсии модели, мы синтезируем изображения, соответствующие текстовому описанию, и затем используем эти изображения для тонкой настройки модели с помощью потерь на соответствие изображения и текста.

Эксперименты и результаты

Мы провели обширную оценку на различных наборах данных и в различных областях, чтобы тщательно оценить потенциал Переноса знаний.

Наборы данных

RareConcepts: Коллекция изображений редких концепций, собранных из интернета.
ImageNet-1k: Большой набор данных для визуального распознавания с 1000 классами и 3.2 миллионами изображений.
CheXpert-2x500c: Набор данных рентгеновских снимков грудной клетки с 200 примерами для каждого класса.
JSRT: Набор данных рентгеновских снимков грудной клетки с легочными узлами.
UnitoChest: Набор данных КТ-срезов грудной клетки с сегментацией узлов.
UDIAT: Набор данных ультразвуковых изображений молочной железы с сегментацией масс.
SIIM Pneumothorax: Набор данных рентгеновских снимков грудной клетки для сегментации пневмоторакса.
BraTS23 Glioma: Набор данных МРТ головного мозга с глиомами.
Flickr30k: Набор данных с 31,783 изображениями и 5 подписями для каждого.
MSCOCO: Большой набор данных с более чем 330,000 изображений и текстовыми подписями.

Установка эксперимента

Для создания описательных подписей новых концепций мы использовали подход на основе LLM (Language Model). Для естественных изображений мы использовали Llama-3 Instruct (с 8B параметрами) с следующим запросом:

"Сгенерируйте небольшое описание класса ImageNet <название класса>, не используя само слово. Описание должно содержать визуальные подсказки, полезные для распознавания объекта с низкоуровневыми и точными деталями. Пожалуйста, не вставляйте ничего, кроме описания."

Для медицинских данных мы использовали смесь ручных описаний на основе Radiopaedia и элементов из ChatGPT-4.

Инверсия модели

Мы выполняли инверсию модели на 5000 шагов, используя косинусное расписание скорости обучения. Для регуляризации мы использовали значение α=0.005, а также применяли случайные аффинные преобразования (поворот между -30 и +30 градусами, смещение на 10%, масштабирование между 70% и 100% от размера изображения) с вероятностью 0.5.

Тонкая настройка

Тонкая настройка выполнялась с использованием потерь InfoNCE для достижения соответствия между инвертированными изображениями и текстовыми описаниями. Мы настраивали только визуальный энкодер, оставляя текстовый энкодер замороженным, чтобы выровнять визуальные признаки с текстовыми.

Выводы

Мы показали, что:

Успешное введение новых концепций: Перенос знаний позволяет успешно вводить новые концепции в предварительно обученные визуальные модели с использованием только текстовых описаний.
Улучшение существующих концепций: Метод также может улучшать точность распознавания уже существующих концепций.
Повышение производительности задач: Перенос знаний может улучшать нулевую настройку (zero-shot) в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

Этот метод открывает новые возможности для быстрого и эффективного обучения моделей на новых данных без необходимости в больших объемах реальных изображений, что особенно полезно в областях с ограниченными данными, таких как медицинская визуализация.

Статья на arxiv Оригинал pdf features encoder transfer

Ай Дайджест

Перенос знаний между модальностями с использованием текстового надзора