Свежая выжимка ml и AI статей - каждый день
Введение:
Представьте себе личного помощника, который следит за вашей повседневной жизнью, анализируя ваши действия и предпочтения. Этот помощник, с его глубоким пониманием вашей личности, может предлагать рекомендации, которые идеально подходят к вашим вкусам и интересам. Хотя идея кажется простой, создание такого универсального помощника, который мог бы предлагать рекомендации по различным аспектам жизни, остается сложной задачей. Большинство существующих систем рекомендаций ограничены определенными сферами и полагаются на историю взаимодействий в этих конкретных вертикалях. Например, интернет-магазин может предложить вам товары на основе ваших прошлых покупок, но он не учтет ваши гастрономические привычки или интересы вне сферы покупок. Аналогично, система бронирования ресторанов может рекомендовать заведения на основе ваших предыдущих резервирований, но не будет знать о вашем новом увлечении кулинарией или недавних путешествиях.
Недавние достижения в персонализированных системах диалога использовали лог-файлы разговоров, не привязанные к конкретным задачам, для предоставления персонализированных ответов. Однако эти подходы в основном опираются на текстовые данные. Мы предполагаем, что визуальная история пользователя, состоящая из изображений, отражающих его повседневную жизнь, может предоставить ценные сведения о его интересах и предпочтениях. В этой статье мы исследуем, может ли такая визуальная история помочь системе рекомендаций лучше понимать индивидуальные предпочтения пользователя и предоставлять более персонализированные рекомендации.
Первой проблемой является разнообразие и шум в визуальной истории. Изображения могут не быть напрямую связаны с задачей рекомендации, не отражать интересы пользователя или даже не быть релевантными его предпочтениям. Существующие системы рекомендаций либо полагаются на специфические для задачи логи взаимодействий пользователя, такие как история покупок для рекомендаций по покупкам, либо фокусируются на текстовых сигналах.
Мы предлагаем новый метод под названием VisualLens, который извлекает, фильтрует и уточняет представления изображений, используя эти сигналы для персонализации рекомендаций. Этот подход включает в себя следующие шаги:
Извлечение изображений: Используя модель CLIP ViT-L/14@336px, мы кодируем каждое изображение в визуальной истории пользователя в векторные представления.
Генерация описаний: Мы генерируем краткие описания (капшены) для каждого изображения с помощью модели LLaVA-v1.6 8B, что помогает улавливать контекст изображений.
Выделение ключевых слов: Для каждого изображения мы извлекаем ключевые слова, которые описывают его содержание, что помогает в определении предпочтений пользователя.
Итеративное уточнение: Мы используем итеративный процесс для улучшения извлечения ключевых слов, чтобы они более точно отражали интересы пользователя и информировали рекомендации.
Объединенное обучение: Мы обучаем модель на задачи извлечения ключевых слов и предсказания предпочтений одновременно, что позволяет модели лучше понимать и использовать визуальную историю для точных рекомендаций.
Оптимизация для скорости: Для минимизации времени обработки мы предварительно генерируем описания изображений и извлекаем ключевые слова оффлайн, а также используем сеточный подход для одновременной обработки множества изображений.
Мы создали два новых бенчмарка - Google Review-V и Yelp-V, используя публично доступные фотографии, чтобы оценить наш метод. Наши эксперименты показали, что VisualLens улучшает качество рекомендаций на 5-10% по метрике Hit@3 по сравнению с существующими методами и на 2-5% по сравнению с GPT-4o. Наши результаты подтверждают, что использование визуальной истории пользователя может значительно улучшить персонализацию рекомендаций, особенно в сценариях, где традиционные методы не справляются.
VisualLens открывает новые возможности для персонализированных рекомендаций, используя визуальную историю пользователя. Это первый шаг к созданию систем рекомендаций, которые могут учитывать не только текстовые, но и визуальные сигналы, что делает рекомендации более точными и релевантными для пользователя. В будущем мы планируем интегрировать VisualLens с другими доступными данными, такими как дата и место создания изображения, а также изучить вопросы конфиденциальности с использованием методов федеративного обучения.