Ай Дайджест - категория acceleration

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

2024-12-18model acceleration sampling

TeaCache: Ускорение Моделей Диффузии Видео

Как фундаментальная основа для генерации видео, модели диффузии сталкиваются с проблемой низкой скорости вывода из-за последовательного характера денойзинга. Предыдущие методы ускоряют модели, кэшируя и повторно используя выходные данные модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходными данными модели неравномерны на временных шагах, что затрудняет выбор соответствующих выходных данных модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В этом исследовании мы представляем Кэш, учитывающий встроения временных шагов (TeaCache), свободный от обучения подход кэширования, который оценивает и использует колеблющиеся различия между выходными данными модели на временных шагах. Вместо того чтобы напрямую использовать временные выходные данные модели, TeaCache сосредотачивается на входных данных модели, которые имеют сильную корреляцию с выходными данными модели, не имея при этом значительных вычислительных затрат. Сначала TeaCache модулирует шумные входные данные, используя встраивания временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходных данных модели. Затем TeaCache вводит стратегию переоценки для уточнения оцененных различий и использует их для указания кэширования выходных данных. Эксперименты показывают, что TeaCache достигает до 4,41x ускорения по сравнению с Open-Sora-Plan при незначительном (-0,07% Vbench score) ухудшении качества изображения.

2024-12-02embedding acceleration model

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

2024-11-19diffusion model caching

Постоянное ускорение потока: Новый подход к генерации данных с помощью ODE

Процедуры выпрямления потока и повторного потока значительно усовершенствовали быстрое создание изображений за счет постепенного выпрямления потоков обыкновенных дифференциальных уравнений (ODE). Они работают на основе предположения, что пары изображений и шума, известные как связи, могут быть аппроксимированы прямыми траекториями с постоянной скоростью. Однако мы замечаем, что моделирование с постоянной скоростью и использование процедур повторного потока имеют ограничения в точном изучении прямых траекторий между парами, что приводит к неоптимальной производительности при генерации за несколько шагов. Чтобы решить эти проблемы, мы представляем Поток Постоянного Ускорения (CAF), новую концепцию, основанную на простом уравнении постоянного ускорения. CAF вводит ускорение как дополнительную обучаемую переменную, что позволяет более выразительно и точно оценивать поток ODE. Кроме того, мы предлагаем два метода для дальнейшего улучшения точности оценки: начальное условие скорости для модели ускорения и процесс повторного потока для начальной скорости. Наши комплексные исследования на искусственных наборах данных, CIFAR-10 и ImageNet 64x64 показывают, что CAF превосходит существующие эталонные решения для генерации за один шаг. Мы также показываем, что CAF значительно улучшает сохранение пар и инверсию при малом числе шагов по сравнению с выпрямленным потоком. Код доступен по адресу https://github.com/mlvlab/CAF.

2024-11-04velocity ode acceleration