Свежая выжимка ml и AI статей - каждый день
В последние годы модели диффузии стали основным инструментом для генерации визуального контента, включая изображения и видео. Несмотря на их высокую эффективность и качество, скорость вывода остается значительной проблемой, препятствующей широкому внедрению этих технологий. В данной статье мы рассмотрим новую стратегию кэширования под названием Timestep Embedding Aware Cache (TeaCache), которая направлена на ускорение этих моделей без необходимости дополнительного обучения.
Модели диффузии работают по принципу последовательного удаления шума из случайного сигнала, что требует множества итераций. Эта последовательная природа процесса затрудняет параллельное выполнение вычислений, что приводит к низкой скорости вывода. В ответ на эту проблему были предложены различные методы ускорения, такие как дистилляция моделей и постобучение, однако они часто требуют дополнительных ресурсов и времени на обучение.
Одним из подходов к ускорению вывода является кэширование выходов модели на заранее выбранных временных шагах. Однако традиционные методы кэширования игнорируют тот факт, что различия между выходами модели не равномерны на разных временных шагах. Это приводит к неэффективному использованию кэшированной информации и, как следствие, к ухудшению качества вывода.
TeaCache предлагает новый подход к кэшированию, который учитывает изменения в выходах модели на различных временных шагах. В отличие от традиционных методов, TeaCache не использует кэширование выходов, а вместо этого фокусируется на входах модели, которые имеют сильную корреляцию с выходами.
TeaCache модифицирует шумные входные данные с использованием временных эмбеддингов, чтобы лучше отразить различия между выходами модели. Это позволяет более точно оценивать, какие выходы следует кэшировать. Основная идея заключается в том, что если разница между входами на текущем и предыдущем временных шагах мала, то можно использовать кэшированный выход.
Для улучшения точности оценок различий между выходами TeaCache вводит стратегию рескейлинга, которая корректирует оцененные различия, увеличивая эффективность кэширования. Это позволяет избежать смещения, которое может возникнуть при прямом использовании различий входов для оценки выходов.
В экспериментах TeaCache демонстрирует значительное ускорение по сравнению с традиционными методами кэширования, достигая до 4.41 раз ускорения с незначительным ухудшением качества визуализации (менее 0.07% по Vbench score). Это свидетельствует о том, что TeaCache может эффективно использовать кэширование, не жертвуя качеством.
В ходе экспериментов TeaCache был сопоставлен с другими современными методами, такими как PAB и T-GATE. Результаты показали, что TeaCache обеспечивает более высокую эффективность при меньших затратах на вычисления, что делает его предпочтительным выбором для задач генерации видео.
TeaCache представляет собой инновационный подход к кэшированию в моделях диффузии, который позволяет значительно ускорить процесс вывода, сохраняя высокое качество визуализации. Учитывая растущие требования к скорости и качеству генерации видео, TeaCache может стать важным инструментом для разработчиков и исследователей в области генеративных моделей.