Ай Дайджест - категория adapter

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

2024-12-06training model geometry

Искусство без искусства: Генерация художественных изображений без предварительных знаний о графическом искусстве

Мы изучаем вопрос: «Сколько знаний о предшествующем искусстве необходимо для создания искусства?» Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы вводим простой, но эффективный метод обучения адаптера искусства, используя только несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с помощью нашего метода, воспринимается пользователями как сопоставимое с искусством,produced models trained on large, art-rich datasets. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры как художественных, так и не художественных наборов данных способствовали созданию новых художественных стилей.

2024-12-03styles art generation

Введение в MyTimeMachine: Персонализированная трансформация возраста лица

Стареющее лицо - это сложный процесс, который в значительной степени зависит от множества факторов, таких как пол, этническая принадлежность, образ жизни и т.д., что делает крайне трудным изучение глобальных предшествующих возрастных изменений для точного прогнозирования старения для любого индивида. Существующие методики часто дают реалистичные и правдоподобные результаты старения, но изображения, подвергнутые старению, часто не соответствуют внешнему виду человека в целевом возрасте, и поэтому требуют персонализации. Во многих практических приложениях виртуального старения, например, в спецэффектах для фильмов и телешоу, доступ к личной фотоколлекции пользователя, отражающей процесс старения в небольшом временном интервале (20-40 лет), обычно имеется. Однако наивные попытки персонализировать глобальные техники старения на личных фотоальбомах часто терпят неудачу. Таким образом, мы предлагаем MyTimeMachine (MyTM), который сочетает в себе глобальные предшествующие возрастные изменения с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированной трансформации возраста. Мы представляем новую Адаптерную Сеть, которая объединяет персонализированные черты старения с глобальными чертами и генерирует изображение с измененным возрастом с помощью StyleGAN2. Мы также вводим три функции потерь для персонализации Адаптерной Сети с персонализированной потерей старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, обеспечивая высококачественные, сохраняющие идентичность и временно согласованные эффекты старения, которые соответствуют реальному внешнему виду в целевые возраста, демонстрируя свое превосходство над современными методами.

2024-11-25gan adapter transformation

Объединённый поиск: Создание доступных адаптаций LLM для языков с ограниченными ресурсами

Большие языковые модели (LLMs) показывают низкие результаты на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает данные из Common Crawl с использованием минимальных вычислительных ресурсов, что позволяет получить монолингвальные наборы данных значительно большего объема, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для дообучения многоязычных LLM с помощью эффективных адаптерных методов (QLoRA) значительно улучшает производительность на языках с ограниченными ресурсами, при этом минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение перплексии языковой модели и увеличение баллов при использовании few-shot подходов. Наша работа и выпущенный исходный код предоставляют доступный способ улучшения LLM для языков с ограниченными ресурсами с использованием потребительского оборудования. Исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.

2024-11-22language fine-tuning prompting