Ай Дайджест - категория caching

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

2024-11-19transformers inference generative

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

2024-11-05caching video motion