Ай Дайджест - категория personalization

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

2024-12-18benchmark insights evaluation

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

2024-12-13benchmark adaptation embedding

LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.

2024-12-11metrics fidelity personalization

Контекстуализированная контрречь: стратегии адаптации, персонализации и оценки

Сгенерированная ИИ контрречь предлагает многообещающую и масштабируемую стратегию для сокращения онлайн-токсичности через прямые ответы, которые способствуют гражданскому дискурсу. Однако текущая контрречь является универсальной, не адаптированной к контексту модерации и вовлеченным пользователям. Мы предлагаем и оцениваем несколько стратегий генерации адаптированной контрречи, которая подстраивается под контекст модерации и персонализируется для пользователя, подвергающегося модерации. Мы обучаем модель LLaMA2-13B генерировать контрречь, экспериментируя с различными конфигурациями на основе различной контекстуальной информации и стратегий дообучения. Мы определяем конфигурации, которые генерируют убедительную контрречь с помощью комбинации количественных показателей и человеческих оценок, собранных в ходе заранее зарегистрированного эксперимента по краудсорсингу смешанного дизайна. Результаты показывают, что контекстуализированная контрречь может значительно превосходить самые современные универсальные контрречи по адекватности и убеждающей силе, не ухудшая другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и человеческими оценками, что предлагает, что эти методы оценивают разные аспекты и подчеркивает необходимость более тонких методологий оценки. Эффективность контекстуализированной сгенерированной ИИ контрречи и расхождение между человеческими и алгоритмическими оценками подчеркивают важность увеличенного сотрудничества человека и ИИ в модерации контента.

2024-12-11evaluation context ai

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

2024-12-06language architecture personalization

Визуализация предпочтений: Революция в персонализации рекомендаций

Мы предполагаем, что визуальная история пользователя, отражающая его повседневную жизнь, предоставляет ценные сведения о его интересах и предпочтениях, и может быть использована для персонализации. Среди множества задач, стоящих перед нами, наиболее важной является разнообразие и шум в визуальной истории, содержащей изображения, которые не обязательно связаны с задачей рекомендации, не обязательно отражают интересы пользователя или даже не имеют отношения к его предпочтениям. Существующие системы рекомендаций либо опираются на специфические для задачи логи взаимодействия пользователя, например, история онлайн-покупок для рекомендаций покупок, либо сосредотачиваются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и уточняет представления изображений и использует эти сигналы для персонализации. Мы создали две новые эталонные базы данных с визуальными историями, не зависящими от конкретных задач, и показали, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по метрике Hit@3, и превосходит GPT-4o на 2-5%. Наш подход открывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не работают.

2024-11-26personalization images benchmarks

Введение в MyTimeMachine: Персонализированная трансформация возраста лица

Стареющее лицо - это сложный процесс, который в значительной степени зависит от множества факторов, таких как пол, этническая принадлежность, образ жизни и т.д., что делает крайне трудным изучение глобальных предшествующих возрастных изменений для точного прогнозирования старения для любого индивида. Существующие методики часто дают реалистичные и правдоподобные результаты старения, но изображения, подвергнутые старению, часто не соответствуют внешнему виду человека в целевом возрасте, и поэтому требуют персонализации. Во многих практических приложениях виртуального старения, например, в спецэффектах для фильмов и телешоу, доступ к личной фотоколлекции пользователя, отражающей процесс старения в небольшом временном интервале (20-40 лет), обычно имеется. Однако наивные попытки персонализировать глобальные техники старения на личных фотоальбомах часто терпят неудачу. Таким образом, мы предлагаем MyTimeMachine (MyTM), который сочетает в себе глобальные предшествующие возрастные изменения с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированной трансформации возраста. Мы представляем новую Адаптерную Сеть, которая объединяет персонализированные черты старения с глобальными чертами и генерирует изображение с измененным возрастом с помощью StyleGAN2. Мы также вводим три функции потерь для персонализации Адаптерной Сети с персонализированной потерей старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, обеспечивая высококачественные, сохраняющие идентичность и временно согласованные эффекты старения, которые соответствуют реальному внешнему виду в целевые возраста, демонстрируя свое превосходство над современными методами.

2024-11-25transformation personalization adapter

Персонализация крупных языковых моделей (LLM): Обзор

Персонализация крупных языковых моделей (LLM) в последнее время становится всё более важной благодаря широкому спектру применений. Несмотря на важность и недавние достижения, большинство существующих работ по персонализированным LLM сосредотачиваются либо полностью на (а) персонализированной генерации текста, либо на (б) использовании LLM для персонализированных приложений, таких как системы рекомендаций. В данной работе мы впервые мостим разрыв между этими двумя основными направлениями, вводя таксономию использования персонализированных LLM и суммируя ключевые различия и вызовы. Мы предлагаем формализацию основ персонализированных LLM, которая консолидирует и расширяет понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемых характеристик персонализированных LLM. Затем мы объединяем литературу по этим разнообразным областям и сценариям использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и применений персонализированных LLM. В заключение, мы выделяем вызовы и важные нерешённые проблемы, которые остаются актуальными. Объединяя и обозревая последние исследования с использованием предложенных таксономий, мы стремимся предоставить ясное руководство по существующей литературе и различным аспектам персонализации в LLM, поддерживая как исследователей, так и практиков.

2024-11-04taxonomy challenges granularity

Исследование неизведанного: Интерфейс на основе чата для персонализированных исследовательских задач

Восход популярности больших языковых моделей (LLM) произвел революцию во взаимодействии пользователей с системами, основанными на знаниях, позволяя чат-ботам синтезировать огромные объемы информации и помогать в выполнении сложных, исследовательских задач. Однако чат-боты на базе LLM часто сталкиваются с трудностями при предоставлении персонализированной поддержки, особенно когда пользователи начинают с неопределенных запросов или не имеют достаточной контекстной информации. В данной статье представляется Коллаборативный Ассистент для Персонализированного Исследования (CARE), система, разработанная для улучшения персонализации в исследовательских задачах путем объединения мультиагентной LLM структуры с организованным пользовательским интерфейсом. Интерфейс CARE включает в себя Панель Чата, Панель Решений и Панель Потребностей, что позволяет итеративно уточнять запросы и динамически генерировать решения. Мультиагентная структура работает совместно для выявления как явных, так и неявных потребностей пользователя, предлагая персонализированные, исполнимые решения. В ходе исследования с участием 22 человек, в котором сравнивались субъекты, CARE постоянно предпочитался базовому чат-боту на основе LLM, с пользователями, хвалившими его способность уменьшать когнитивную нагрузку, вдохновлять на креативность и предоставлять более адаптированные решения. Наши выводы подчеркивают потенциал CARE для преобразования систем на базе LLM из пассивных ретриверов информации в активных партнеров в персонализированном решении проблем и исследовании.

2024-11-01multi-agent interface exploration