Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (Normalizing Flows, NFs) представляют собой метод, основанный на правдоподобии, для обучения непрерывных распределений. Они продемонстрировали многообещающие результаты как в задачах оценки плотности, так и в генеративном моделировании. Несмотря на это, в последние годы внимание к ним значительно уменьшилось по сравнению с другими генеративными моделями, такими как модели диффузии и большие языковые модели (LLM). В данной статье мы рассмотрим новую архитектуру, называемую TARFLOW (Transformer AutoRegressive Flow), которая позволяет значительно улучшить производительность нормализующих потоков и делает их конкурентоспособными по сравнению с современными генеративными моделями.

Основные концепции нормализующих потоков

Нормализующие потоки работают путем преобразования сложного распределения данных в простое распределение (например, гауссовское) с помощью обратимых преобразований. Основная идея заключается в том, что мы можем использовать формулу изменения переменной для вычисления плотности распределения, что позволяет нам точно оценивать правдоподобие.

Формально, если у нас есть непрерывные входные данные ( x \sim p_{\text{data}} ), где ( p_{\text{data}} ) - это распределение данных, то нормализующий поток обучает модель плотности ( p_{\text{model}}(x) ) через преобразование ( f ):

[ p_{\text{model}}(x) = p_0(f(x)) \cdot \left| \text{det}\left(\frac{df(x)}{dx}\right) \right| ]

где ( p_0 ) - это простое распределение (например, нормальное), а ( f ) - это обратимое преобразование.

Архитектура TARFLOW

TARFLOW представляет собой новую архитектуру нормализующих потоков, основанную на трансформерах. Основное отличие TARFLOW от предыдущих моделей, таких как Masked Autoregressive Flows (MAFs), заключается в использовании мощного маскированного трансформера, который работает в режиме блочного авторегрессионного предсказания. Это позволяет эффективно обрабатывать последовательности данных, такие как изображения, разбивая их на патчи.

Каждый блок TARFLOW состоит из последовательности операций, включая перестановку входных данных, применение трансформера и аффинное преобразование. Это обеспечивает мощное нелинейное преобразование между патчами изображения, сохраняя при этом параллельную вычислительную графику во время обучения.

Ключевые техники для улучшения качества образцов

В работе предложены три важные техники, которые значительно улучшают качество генерируемых образцов:

Увеличение гауссовского шума во время обучения: Добавление шума к входным данным во время обучения помогает улучшить обобщающую способность модели. В отличие от обычного равномерного шума, использование гауссовского шума с подходящим стандартным отклонением позволяет модели лучше адаптироваться к распределению данных.
Процедура денойзинга после обучения: Для улучшения визуального качества генерируемых образцов применяется метод денойзинга, основанный на оценке градиента логарифма правдоподобия. Это позволяет удалять шум из сгенерированных образцов, улучшая их качество.
Методы управления (Guidance): Мы также показываем, что методы управления, такие как условное и некондиционное управление, совместимы с нормализующими потоками. Это позволяет значительно улучшить качество выборки, обеспечивая большую гибкость в процессе генерации.

Результаты

С помощью архитектуры TARFLOW и предложенных техник были достигнуты новые рекорды в оценке правдоподобия на стандартных наборах данных, таких как ImageNet. Например, модель TARFLOW достигла значения менее 3 BPD (бит на размерность) на ImageNet 64x64, что является значительным улучшением по сравнению с предыдущими методами.

Кроме того, качество и разнообразие генерируемых образцов TARFLOW сопоставимо с моделями диффузии и GAN, что делает нормализующие потоки конкурентоспособными в области генеративного моделирования.

Заключение

В данной статье мы продемонстрировали, что нормализующие потоки могут быть мощными генеративными моделями, способными конкурировать с современными методами. Архитектура TARFLOW и предложенные техники значительно улучшают производительность нормализующих потоков, что открывает новые перспективы для их применения в задачах генеративного моделирования. Мы надеемся, что наше исследование вдохновит дальнейшие исследования в этой области и поможет в разработке более мощных и эффективных генеративных моделей.