JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

В последние годы исследования в области искусственного интеллекта (AI) и машинного обучения (ML) сделали значительные шаги вперёд, особенно в области обработки естественного языка (NLP) и компьютерного зрения. Одним из ключевых направлений является создание моделей, способных одновременно понимать и генерировать контент в различных модальностях, таких как текст и изображения. В этом контексте представлен JanusFlow — новая архитектура, которая объединяет авторегрессивные языковые модели (LLM) с методом генеративного моделирования под названием выпрямленный поток (rectified flow), предлагая уникальный подход к мультимодальному обучению.

Авторегрессивные модели, такие как LLM, демонстрируют впечатляющие способности к обучению и обобщению знаний, что делает их ценными инструментами для понимания и генерации текстов. Однако, когда дело доходит до обработки изображений, эти модели сталкиваются с ограничениями, так как изображения представляют собой непрерывные данные, а не дискретные токены, с которыми LLM работают наиболее эффективно. Для решения этой проблемы были разработаны различные подходы, включая использование предобученных моделей генерации изображений, таких как модели диффузии, или модели на основе векторного квантования (VQ).

JanusFlow представляет собой попытку объединить лучшее из обоих миров: авторегрессивные возможности LLM и генеративные способности выпрямленного потока. Этот метод не требует сложных архитектурных изменений и позволяет модели эффективно работать как с пониманием, так и с генерацией изображений.

Основные Концепции JanusFlow

Авторегрессивные Модели и Выпрямленный Поток

Авторегрессивные модели предсказывают следующее слово в последовательности на основе предыдущих слов. Они обучаются на огромных массивах текстовых данных и могут генерировать тексты, которые выглядят естественно и логично. Однако, когда речь заходит о генерации изображений, эти модели сталкиваются с проблемой: изображения не являются последовательностью дискретных токенов, а представляют собой непрерывные данные.

Выпрямленный поток (Rectified Flow) — это метод генеративного моделирования, который предлагает альтернативу традиционным подходам, таким как модели диффузии. Вместо того чтобы моделировать распределение данных через последовательное добавление шума и его последующее удаление, выпрямленный поток использует прямую траекторию от начального распределения к целевому, что упрощает процесс генерации.

Архитектура JanusFlow

JanusFlow интегрирует авторегрессивную модель с выпрямленным потоком следующим образом:

Минималистичная Архитектура: JanusFlow использует легковесный энкодер и декодер для адаптации LLM к операциям выпрямленного потока. Это позволяет модели эффективно работать с изображениями без необходимости значительных архитектурных изменений.
Разделение Энкодеров: Для улучшения производительности модели, JanusFlow использует отдельные энкодеры для задач понимания и генерации. Это предотвращает интерференцию между задачами, что позволяет модели лучше фокусироваться на каждой из них.
Выравнивание Представлений: Во время обучения модель выравнивает промежуточные представления между модулями генерации и понимания, что способствует семантической согласованности в процессе генерации.

Преимущества JanusFlow

Универсальность: JanusFlow способен выполнять как понимание, так и генерацию в мультимодальной среде, что делает его универсальным инструментом для различных задач.
Эффективность: Благодаря минималистичной архитектуре и использованию выпрямленного потока, модель требует меньше вычислительных ресурсов по сравнению с другими подходами.
Производительность: JanusFlow демонстрирует результаты, сравнимые или превосходящие специализированные модели в их собственных областях, что подтверждается экспериментами на стандартных бенчмарках.

Эксперименты и Результаты

Эксперименты с JanusFlow показали, что модель способна генерировать изображения высокого качества, которые семантически соответствуют текстовым описаниям, а также эффективно понимать и анализировать визуальные данные. В частности:

На бенчмарках генерации изображений, таких как MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow достиг результатов, превосходящих многие существующие модели.
В задачах мультимодального понимания, включая визуальные вопросы и ответы, JanusFlow показал высокие результаты, превосходя специализированные модели в некоторых случаях.

Заключение

JanusFlow представляет собой значительный шаг вперёд в направлении создания более универсальных и эффективных мультимодальных моделей. Интеграция авторегрессивных языковых моделей с выпрямленным потоком открывает новые возможности для исследований и разработок в области AI, позволяя создавать системы, которые могут одновременно понимать и генерировать контент в различных форматах. Это не только улучшает производительность моделей, но и делает их более доступными для применения в реальных сценариях, где требуется гибкость и эффективность в обработке мультимодальных данных.

Статья на arxiv Оригинал pdf training framework model