SmoothCache: Ускорение Инференса для Диффузионных Трансформеров
Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.