Свежая выжимка ml и AI статей - каждый день
Модели диффузии, такие как Score-based Generative Modeling through Stochastic Differential Equations (SDE) и Denoising Diffusion Probabilistic Models (DDPM), стали основным выбором для высококачественной генерации изображений благодаря их превосходным возможностям генерации по сравнению с другими моделями, такими как GAN и VAE. Однако, их многоступенчатый процесс генерации приводит к медленному производству и значительной вычислительной нагрузке. Чтобы решить эту проблему, были предложены два основных подхода: дистилляция моделей и методы упрощения траекторий потока.
Одним из примеров последнего является Rectified Flow, который фокусируется на выравнивании траекторий обычных дифференциальных уравнений (ODE), делая их более прямолинейными через повторяющийся процесс, известный как рефлоу (reflow). Этот процесс постепенно выпрямляет траектории, устраняя проблему пересечения потоков, что уменьшает ошибки дискретизации и позволяет более быструю генерацию.
Однако, моделирование с постоянной скоростью и использование процедур рефлоу имеют ограничения в точном обучении прямых траекторий между парами данных, что приводит к субоптимальной производительности при генерации за несколько шагов. В этой статье мы представляем Constant Acceleration Flow (CAF), новую структуру, основанную на простом уравнении постоянного ускорения, которая вводит ускорение как дополнительную обучаемую переменную, позволяя более точную и выразительную оценку потока ODE.
CAF основывается на уравнении, которое описывает изменение состояния системы с постоянным ускорением:
[ \frac{d\mathbf{x}_t}{dt} = \mathbf{v}(\mathbf{x}_0, 0) + \mathbf{a}(\mathbf{x}_t, t) \cdot t ]
где (\mathbf{v}(\mathbf{x}_0, 0)) — начальная скорость, а (\mathbf{a}(\mathbf{x}_t, t)) — ускорение, которое считается постоянным в течение всего процесса.
Для улучшения точности оценки траекторий CAF использует условие начальной скорости (Initial Velocity Conditioning, IVC). Это условие помогает избежать проблемы пересечения потоков, которая может возникнуть при обучении прямых траекторий ODE.
CAF также внедряет процесс рефлоу для улучшения обучения начальной скорости. Этот процесс включает в себя создание новой пары (coupling) данных, используя предварительно обученную модель CAF, для того чтобы сделать связь между (\mathbf{x}_0) и (\mathbf{x}_1) более детерминированной и прямой.
На простых двумерных синтетических данных CAF показала превосходство над Rectified Flow в точности оценки целевого распределения. Визуализация траекторий сэмплирования показала, что CAF может более точно воспроизводить целевое распределение даже при однократном сэмплировании.
На реальных наборах данных, таких как CIFAR-10 и ImageNet 64x64, CAF продемонстрировала значительное улучшение FID (Fréchet Inception Distance) по сравнению с существующими методами. Например, на CIFAR-10 CAF достигла FID в 1.39 для условной генерации, что превосходит многие современные методы.
Constant Acceleration Flow (CAF) представляет собой новый подход к генерации данных, который улучшает точность и эффективность за счет введения ускорения как контролируемой переменной в рамках ODE. Использование IVC и рефлоу для начальной скорости позволяет CAF успешно решать проблемы, связанные с пересечением потоков, что делает его особенно эффективным для быстрой генерации данных. Эксперименты показали, что CAF превосходит существующие методы по многим метрикам, предлагая перспективное направление для дальнейших исследований и применений в области генеративного моделирования.