Свежая выжимка ml и AI статей - каждый день
В мире генеративных моделей диффузионные трансформеры (DiT) завоевали популярность благодаря своей способности создавать высококачественный контент в различных областях, включая изображения, аудио, видео и даже 3D-модели. Однако, несмотря на их мощь, инференция этих моделей требует значительных вычислительных ресурсов, что ограничивает их практическое применение. В этом контексте появляется SmoothCache, инновационная техника ускорения инференса, которая обещает значительное улучшение производительности без ущерба для качества генерации.
Основная проблема инференса в DiT заключается в повторяющемся выполнении вычислительно сложных операций, таких как внимание и прямые передачи, в процессе деноизинга. SmoothCache предлагает решение, основанное на наблюдении, что выходы слоев на соседних временных шагах диффузии имеют высокую косинусную схожесть, что указывает на потенциальные избыточности в вычислениях.
Эксперименты показали, что SmoothCache может ускорить инференцию на 8% до 71% в зависимости от модальности и конфигурации модели, при этом качество генерации либо остаётся на прежнем уровне, либо улучшается. Техника была успешно применена к различным моделям:
SmoothCache работает на основе следующих принципов:
Несмотря на свои преимущества, SmoothCache имеет ограничения:
Будущие исследования могут быть направлены на:
SmoothCache представляет собой значительный шаг вперёд в оптимизации инференса для диффузионных трансформеров. Эта техника не только ускоряет процесс генерации, но и делает его более доступным для реального времени и широкого спектра приложений. Благодаря своей универсальности и эффективности, SmoothCache имеет потенциал стать стандартом в области генеративных моделей, расширяя возможности использования DiT в различных областях.