Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

В последние годы визуальное поколение, особенно текстово-изображенческое (text-to-image), претерпело значительные изменения благодаря достижениям в области машинного обучения. Это направление сталкивается с множеством вызовов, включая необходимость точного соблюдения языковых инструкций и создание сложных сцен. В настоящее время визуальное поколение в основном делится на два подхода: модели диффузии и автогрегативные модели. Модели диффузии обучаются для инверсии прямых путей данных к случайному шуму, в то время как автогрегативные модели используют визуальные токенизаторы для преобразования изображений в дискретные токены, что позволяет генерировать изображения через предсказание следующего токена.

Тем не менее, автогрегативные модели сталкиваются с серьезными проблемами при синтезе изображений высокого разрешения, так как они имеют низкое качество реконструкции при использовании дискретных токенов. В данной статье представляется новая архитектура под названием Infinity, которая использует битовое моделирование для преодоления этих ограничений и достижения более высокого качества генерации изображений.

Битовое моделирование

Infinity вводит концепцию битового моделирования, заменяя традиционные дискретные токены на битовые токены на протяжении всего процесса. Это позволяет значительно увеличить размер словаря токенизатора до 2^64, что превосходит все предыдущие автогрегативные модели. Битовое моделирование состоит из трех основных модулей:

Битовое визуальное токенизирование - преобразует входные изображения в битовые токены.
Классификатор бесконечного словаря (IVC) - предсказывает битовые метки вместо индексов токенов, что значительно снижает вычислительные затраты и улучшает качество генерации.
Битовая самокоррекция - позволяет модели исправлять свои ошибки, улучшая качество выходных изображений.

Архитектура Infinity

Infinity использует визуальный токенизатор и трансформер для синтеза изображений. Во время обучения модель принимает текстовый запрос и истинное изображение. Визуальный токенизатор сначала кодирует изображение в карту признаков, а затем квантизирует эту карту в несколько масштабных остаточных карт. Эти остаточные карты позволяют постепенно приближаться к непрерывным признакам изображения.

Визуальный токенизатор

Визуальный токенизатор Infinity использует битовое многомасштабное квантование, что позволяет значительно сократить использование памяти и вычислительных ресурсов. Вместо традиционного векторного квантования используется битовое квантование, что позволяет эффективно обрабатывать большие размеры словаря.

Классификатор бесконечного словаря

Классификатор IVC предсказывает битовые метки, что позволяет избежать огромных вычислительных затрат, связанных с традиционными классификаторами. Например, при размере словаря V_d = 2^32 и h = 2048, традиционный классификатор потребует 8.8 триллионов параметров, что превышает современные вычислительные возможности. В отличие от этого, IVC требует всего 0.65 миллиона параметров.

Битовая самокоррекция

Метод самокоррекции позволяет модели справляться с ошибками, возникающими в процессе обучения. В отличие от традиционного подхода, который использует принудительное обучение, битовая самокоррекция вводит случайные изменения в предсказания модели, что позволяет улучшить качество генерации и снизить расхождения между обучением и тестированием.

Масштабирование и производительность

Infinity демонстрирует мощные законы масштабирования, позволяя значительно улучшить детали и качество изображений по мере увеличения размера токенизатора и трансформера. При этом модель достигает рекордных результатов по сравнению с другими современными моделями, такими как DALL-E 3 и SDXL.

Результаты и сравнения

Infinity устанавливает новые рекорды для автогрегативных моделей, превосходя ведущие модели диффузии на различных бенчмарках. Например, модель улучшила оценку GenEval с 0.62 до 0.73 и ImageReward с 0.87 до 0.96, что подтверждает ее превосходство в генерации изображений.

Заключение

В заключение, Infinity представляет собой значительный шаг вперед в области автогрегативного моделирования для синтеза изображений. Используя битовое моделирование, IVC и самокоррекцию, модель демонстрирует превосходные результаты в генерации изображений высокого разрешения, что открывает новые горизонты для дальнейших исследований и разработок в этой области.

Статья на arxiv Оригинал pdf generation classifier benchmark

Ай Дайджест