Ай Дайджест - категория contrastive

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

2024-12-13generation contrastive customization

StyleMaster: Устранение проблем стилизации видео с помощью нового подхода

Контроль стиля был популярным в моделях генерации видео. Существующие методы часто генерируют видео, сильно отличающиеся от заданного стиля, вызывают утечку контента и имеют трудности с переводом одного видео в желаемый стиль. Наша первая наблюдение заключается в том, что стадия извлечения стиля имеет значение, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Чтобы добавить текстурные особенности и предотвратить утечку контента, мы фильтруем связанные с контентом патчи, сохраняя стильовые на основе схожести между патчами; для извлечения глобального стиля мы создаем парный стильовый датасет через модельную иллюзию для облегчения контрастивного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на статичных видео, что неявно увеличивает степень стилизации и позволяет нашей модели, обученной на изображениях, бесшовно применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только значительно улучшает как сходство стиля, так и временную согласованность, но и легко обобщается для передачи стиля видео с помощью ControlNet с серой плиткой. Обширные эксперименты и визуализации показывают, что StyleMaster значительно превосходит конкурентов, эффективно генерируя высококачественные стилизованные видео, которые соответствуют текстовому содержанию и близки к стилю эталонных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster.

2024-12-12contrastive extraction generation

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

2024-11-26annotation contrastive benchmark

Ключевые кадры и маскирование Mamba для расширенного генерирования движений

Перевод на русский: Генерация движений человека является передовой областью исследований в генеративном компьютерном зрении с перспективными применениями в создании видео, разработке игр и манипуляциях робототехники. Недавно разработанная архитектура Mamba показывает многообещающие результаты в эффективном моделировании длинных и сложных последовательностей, однако остаются две значительные проблемы: Во-первых, непосредственное применение Mamba к расширенной генерации движений неэффективно, поскольку ограниченная емкость неявной памяти приводит к её затуханию. Во-вторых, Mamba испытывает трудности с мультимодальной интеграцией по сравнению с трансформерами и не соответствует текстовым запросам, часто путая направления (влево или вправо) или опуская части длинных текстовых запросов. Чтобы решить эти проблемы, наша статья предлагает три ключевых вклада: Во-первых, мы вводим KMM, новую архитектуру с моделированием маскирования ключевых кадров, разработанную для улучшения фокусировки Mamba на ключевых действиях в сегментах движения. Этот подход решает проблему затухания памяти и представляет собой пионерский метод в настройке стратегического маскирования на уровне кадров в системах моделирования последовательностей (SSM). Кроме того, мы разработали парадигму контрастивного обучения для решения проблемы мультимодальной интеграции в Mamba и улучшения согласованности движения с текстом. Наконец, мы провели обширные эксперименты на наборе данных go-to, BABEL, достигнув рекордных результатов с сокращением более чем на 57% в FID и на 70% параметров по сравнению с предыдущими методами, установившими стандарт качества. Смотрите сайт проекта: https://steve-zeyu-zhang.github.io/KMM

2024-11-12memory architecture contrastive

LLM2CLIP: Как мощные языковые модели улучшают визуальные представления

CLIP является одной из наиболее важных мультимодальных базовых моделей сегодня. Что обеспечивает возможности CLIP? Богатые сигналы надзора, предоставляемые естественным языком, носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрым развитием крупных языковых моделей (LLM), таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это ставит интригующий вопрос: можно ли использовать возможности LLM для дальнейшего улучшения мультимодального обучения представлений? Потенциальные выгоды от интеграции LLM в CLIP очевидны. Сильное текстовое понимание LLM может существенно улучшить способность CLIP обрабатывать подписи к изображениям, значительно повышая его способность работать с длинными и сложными текстами, что является известным ограничением оригинального CLIP. Более того, LLM обучаются на огромных корпусах текста, обладая знаниями открытого мира. Это позволяет им расширять информацию подписей во время обучения, повышая эффективность процесса обучения. В этой статье мы предлагаем LLM2CLIP, новый подход, который использует силу LLM для раскрытия потенциала CLIP. Путем тонкой настройки LLM в пространстве подписей с использованием контрастивного обучения, мы извлекаем его текстовые способности в выходные вложения, значительно улучшая дискриминационность текстовых выходных данных. Затем мы разрабатываем эффективный процесс обучения, где тонко настроенный LLM выступает в роли мощного учителя для визуального энкодера CLIP. Благодаря присутствию LLM, мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и возможностями текстового энкодера оригинального CLIP. Наши эксперименты показывают, что этот подход приносит значительные улучшения в кросс-модальных задачах.

2024-11-11multimodal llm fine-tuning