Свежая выжимка ml и AI статей - каждый день
Может ли человек, который внезапно обрел зрение, распознавать объекты, которые он ранее знал только на ощупь? Этот философский вопрос, впервые поставленный Уильямом Молинью в 1668 году, остается актуальным в области нейронауки зрения. Исследования показывают, что хотя это не происходит мгновенно после восстановления зрения, кросс-модальные связи развиваются быстро у людей в течение нескольких дней.
В этой статье мы рассмотрим аналогичный вопрос, но в контексте машинного обучения и мультимодальных нейронных сетей. Наша цель — ответить на вопрос: может ли модель, уже обладающая некоторыми визуальными знаниями о мире, научиться новым концепциям, используя только их текстовое описание? Мы предполагаем, что предварительно обученные визуальные модели уже содержат достаточно низкоуровневых визуальных признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций.
Мы вводим метод, который называем Переносом знаний. Этот метод позволяет обучать новые концепции, используя только их текстовое описание. Аналогично человеческому восприятию, мы используем кросс-модальное взаимодействие для введения новых концепций. Наша гипотеза заключается в том, что в предварительно обученном визуальном энкодере уже содержатся достаточные низкоуровневые признаки, которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций.
Предварительное обучение: Визуальный энкодер предварительно обучается на большом наборе изображений и текстов, что позволяет ему извлекать общие визуальные признаки.
Текстовое описание: Предоставляется текстовое описание новой концепции, которую мы хотим ввести в модель.
Выравнивание признаков: Мы выравниваем известные низкоуровневые визуальные признаки энкодера с их высокоуровневым текстовым описанием.
Обучение: Используя метод инверсии модели, мы синтезируем изображения, соответствующие текстовому описанию, и затем используем эти изображения для тонкой настройки модели с помощью потерь на соответствие изображения и текста.
Мы провели обширную оценку на различных наборах данных и в различных областях, чтобы тщательно оценить потенциал Переноса знаний.
Для создания описательных подписей новых концепций мы использовали подход на основе LLM (Language Model). Для естественных изображений мы использовали Llama-3 Instruct (с 8B параметрами) с следующим запросом:
"Сгенерируйте небольшое описание класса ImageNet <название класса>, не используя само слово. Описание должно содержать визуальные подсказки, полезные для распознавания объекта с низкоуровневыми и точными деталями. Пожалуйста, не вставляйте ничего, кроме описания."
Для медицинских данных мы использовали смесь ручных описаний на основе Radiopaedia и элементов из ChatGPT-4.
Мы выполняли инверсию модели на 5000 шагов, используя косинусное расписание скорости обучения. Для регуляризации мы использовали значение α=0.005, а также применяли случайные аффинные преобразования (поворот между -30 и +30 градусами, смещение на 10%, масштабирование между 70% и 100% от размера изображения) с вероятностью 0.5.
Тонкая настройка выполнялась с использованием потерь InfoNCE для достижения соответствия между инвертированными изображениями и текстовыми описаниями. Мы настраивали только визуальный энкодер, оставляя текстовый энкодер замороженным, чтобы выровнять визуальные признаки с текстовыми.
Мы показали, что:
Этот метод открывает новые возможности для быстрого и эффективного обучения моделей на новых данных без необходимости в больших объемах реальных изображений, что особенно полезно в областях с ограниченными данными, таких как медицинская визуализация.