Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Постоянное ускорение потока: Новый подход к генерации данных с помощью ODE

Модели диффузии, такие как Score-based Generative Modeling through Stochastic Differential Equations (SDE) и Denoising Diffusion Probabilistic Models (DDPM), стали основным выбором для высококачественной генерации изображений благодаря их превосходным возможностям генерации по сравнению с другими моделями, такими как GAN и VAE. Однако, их многоступенчатый процесс генерации приводит к медленному производству и значительной вычислительной нагрузке. Чтобы решить эту проблему, были предложены два основных подхода: дистилляция моделей и методы упрощения траекторий потока.

Одним из примеров последнего является Rectified Flow, который фокусируется на выравнивании траекторий обычных дифференциальных уравнений (ODE), делая их более прямолинейными через повторяющийся процесс, известный как рефлоу (reflow). Этот процесс постепенно выпрямляет траектории, устраняя проблему пересечения потоков, что уменьшает ошибки дискретизации и позволяет более быструю генерацию.

Однако, моделирование с постоянной скоростью и использование процедур рефлоу имеют ограничения в точном обучении прямых траекторий между парами данных, что приводит к субоптимальной производительности при генерации за несколько шагов. В этой статье мы представляем Constant Acceleration Flow (CAF), новую структуру, основанную на простом уравнении постоянного ускорения, которая вводит ускорение как дополнительную обучаемую переменную, позволяя более точную и выразительную оценку потока ODE.

Основные концепции CAF

Постоянное ускорение

CAF основывается на уравнении, которое описывает изменение состояния системы с постоянным ускорением:

[ \frac{d\mathbf{x}_t}{dt} = \mathbf{v}(\mathbf{x}_0, 0) + \mathbf{a}(\mathbf{x}_t, t) \cdot t ]

где (\mathbf{v}(\mathbf{x}_0, 0)) — начальная скорость, а (\mathbf{a}(\mathbf{x}_t, t)) — ускорение, которое считается постоянным в течение всего процесса.

Условие начальной скорости

Для улучшения точности оценки траекторий CAF использует условие начальной скорости (Initial Velocity Conditioning, IVC). Это условие помогает избежать проблемы пересечения потоков, которая может возникнуть при обучении прямых траекторий ODE.

Процесс рефлоу для начальной скорости

CAF также внедряет процесс рефлоу для улучшения обучения начальной скорости. Этот процесс включает в себя создание новой пары (coupling) данных, используя предварительно обученную модель CAF, для того чтобы сделать связь между (\mathbf{x}_0) и (\mathbf{x}_1) более детерминированной и прямой.

Эксперименты и результаты

Синтетические эксперименты

На простых двумерных синтетических данных CAF показала превосходство над Rectified Flow в точности оценки целевого распределения. Визуализация траекторий сэмплирования показала, что CAF может более точно воспроизводить целевое распределение даже при однократном сэмплировании.

Реальные данные

На реальных наборах данных, таких как CIFAR-10 и ImageNet 64x64, CAF продемонстрировала значительное улучшение FID (Fréchet Inception Distance) по сравнению с существующими методами. Например, на CIFAR-10 CAF достигла FID в 1.39 для условной генерации, что превосходит многие современные методы.

Анализ

  • Сохранение связей: CAF показала лучшую способность сохранять связи между парами данных, что подтверждается меньшим расстоянием LPIPS и большим значением PSNR по сравнению с Rectified Flow.
  • Прямолинейность потока: CAF превосходит Rectified Flow по метрике прямолинейности потока, что указывает на более точное моделирование траекторий ODE.
  • Инверсия: CAF эффективна в задачах реконструкции и инпэйнтинга, показывая лучшие результаты даже при меньшем количестве шагов.

Заключение

Constant Acceleration Flow (CAF) представляет собой новый подход к генерации данных, который улучшает точность и эффективность за счет введения ускорения как контролируемой переменной в рамках ODE. Использование IVC и рефлоу для начальной скорости позволяет CAF успешно решать проблемы, связанные с пересечением потоков, что делает его особенно эффективным для быстрой генерации данных. Эксперименты показали, что CAF превосходит существующие методы по многим метрикам, предлагая перспективное направление для дальнейших исследований и применений в области генеративного моделирования.