ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность
В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.