OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

В последние годы генеративное моделирование претерпело значительные изменения, особенно благодаря достижениям в области диффузионных моделей, таких как DALL-E 3 и Stable Diffusion 3. Эти модели достигли выдающихся результатов в задачах генерации изображений и аудио на основе текстовых описаний. Тем не менее, большинство из них ограничены выполнением одной конкретной задачи и требуют значительных вычислительных ресурсов и данных для обучения.

В данной статье мы рассмотрим OmniFlow, новую универсальную модель генерации, которая поддерживает любые-to-any (A2A) генерационные задачи, такие как текст в изображение, текст в аудио и аудио в изображение. Эта модель продвигает рамки существующих подходов, предлагая более эффективное и модульное решение для многомодальных задач.

Основные Вкладки OmniFlow

OmniFlow предлагает три ключевых вклада в область генеративного моделирования:

Расширение Рамок Rectified Flow (RF): Мы расширяем концепцию RF для многомодальных установок, позволяя пользователям гибко контролировать согласование между различными модальностями в сгенерированных выходах.
Новая Архитектура: Мы представляем новую архитектуру, которая расширяет архитектуру MMDiT, использованную в Stable Diffusion 3, и позволяет генерацию аудио и текста. Эти модули могут быть эффективно предварительно обучены и объединены с базовой версией текстово-изображенческой модели для дообучения.
Исследование Дизайна: Мы проводим обширное исследование по выбору дизайна трансформеров rectified flow для генерации аудио и текста в больших масштабах, предоставляя ценные идеи для оптимизации производительности по различным модальностям.

Фон

Генеративные Модели на Основе Потока

Генеративные модели на основе потока представляют собой мощный инструмент для моделирования распределений данных. Они используют обыкновенные дифференциальные уравнения (ODE) для описания связи между данными и распределением шума. В частности, они позволяют нам эффективно обучать модели, которые могут генерировать новые данные, основываясь на обученном распределении.

Генерация Any-to-Any

Ранее исследования в области генерации A2A, такие как CoDi и Unified-IO, использовали комбинацию модульных кодеров и декодеров, что ограничивало взаимодействие между модальностями. OmniFlow предлагает более интегрированный подход, позволяя различным модальностям взаимодействовать друг с другом через совместное внимание.

Методология

Многомодальный Rectified Flow

Мы рассматриваем совместное распределение многомодальных данных и используем декомпозированное, непрерывное интерполяционное представление для моделирования A2A задач. Каждая задача генерации может быть представлена путем соединения двух уровней шума, что позволяет нам моделировать сложные взаимодействия между текстом, изображениями и аудио.

Многомодальное Управление

Для гибкого управления процессом генерации мы расширяем концепцию безклассификационного управления (CFG) для многомодальных установок. Это позволяет пользователям управлять взаимодействием между входными и выходными модальностями, обеспечивая более точное соответствие между ними.

Архитектура OmniFlow

OmniFlow построен на модульной архитектуре, которая позволяет эффективно обрабатывать различные модальности. Мы используем специфические VAEs для преобразования входных данных в латентные представления, на которые затем добавляется шум. Эти латентные представления передаются через несколько блоков Omni-Transformer, которые обрабатывают данные с использованием совместного внимания.

Настройка и Обучение

Датасеты

Для обучения модели мы используем пары текстов и изображений, текстов и аудио, а также аудио и изображений. Мы также генерируем синтетические тройки текст-изображение-аудио, используя предобученные модели.

Процесс Обучения

Процесс обучения включает в себя предварительное обучение модулей отдельно, а затем их объединение для дообучения на разнообразных задачах A2A. Это позволяет существенно сократить вычислительные затраты по сравнению с предыдущими подходами, которые требовали обучения модели с нуля.

Основные Результаты

Оценка Модели

Мы проводим обширные эксперименты по оценке производительности OmniFlow на различных задачах генерации, включая текст в изображение и текст в аудио. Результаты показывают, что OmniFlow превосходит предыдущие модели на нескольких бенчмарках, таких как MSCOCO и GenEval.

Генерация Текста в Изображение

OmniFlow демонстрирует конкурентоспособные результаты по сравнению с другими моделями, такими как DALL-E 2 и Stable Diffusion, обеспечивая более низкие значения FID и более высокие оценки CLIP. Это подтверждает способность модели генерировать высококачественные изображения, соответствующие текстовым описаниям.

Генерация Текста в Аудио

В задаче генерации текста в аудио OmniFlow показывает сильные результаты по сравнению с другими генераторами аудио, такими как AudioLDM и Make-an-Audio. Мы наблюдаем улучшения как в метриках FAD, так и в оценках CLAP.

Заключение

OmniFlow представляет собой значительный шаг вперед в области многомодальных генеративных моделей. Благодаря своей модульной архитектуре и гибкому управлению взаимодействием между различными модальностями, OmniFlow не только демонстрирует выдающиеся результаты в задачах A2A генерации, но и открывает новые возможности для дальнейших исследований в этой области. Мы надеемся, что наши результаты вдохновят сообщество на разработку будущих многомодальных диффузионных моделей, выходящих за рамки текстово-изображенческих задач.

Статья на arxiv Оригинал pdf multi-modal performance synthesis

Ай Дайджест