Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "filtering"

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Визуализация предпочтений: Революция в персонализации рекомендаций

Мы предполагаем, что визуальная история пользователя, отражающая его повседневную жизнь, предоставляет ценные сведения о его интересах и предпочтениях, и может быть использована для персонализации. Среди множества задач, стоящих перед нами, наиболее важной является разнообразие и шум в визуальной истории, содержащей изображения, которые не обязательно связаны с задачей рекомендации, не обязательно отражают интересы пользователя или даже не имеют отношения к его предпочтениям. Существующие системы рекомендаций либо опираются на специфические для задачи логи взаимодействия пользователя, например, история онлайн-покупок для рекомендаций покупок, либо сосредотачиваются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и уточняет представления изображений и использует эти сигналы для персонализации. Мы создали две новые эталонные базы данных с визуальными историями, не зависящими от конкретных задач, и показали, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по метрике Hit@3, и превосходит GPT-4o на 2-5%. Наш подход открывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не работают.

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.