Свежая выжимка ml и AI статей - каждый день
В последние годы визуальное поколение, особенно текстово-изображенческое (text-to-image), претерпело значительные изменения благодаря достижениям в области машинного обучения. Это направление сталкивается с множеством вызовов, включая необходимость точного соблюдения языковых инструкций и создание сложных сцен. В настоящее время визуальное поколение в основном делится на два подхода: модели диффузии и автогрегативные модели. Модели диффузии обучаются для инверсии прямых путей данных к случайному шуму, в то время как автогрегативные модели используют визуальные токенизаторы для преобразования изображений в дискретные токены, что позволяет генерировать изображения через предсказание следующего токена.
Тем не менее, автогрегативные модели сталкиваются с серьезными проблемами при синтезе изображений высокого разрешения, так как они имеют низкое качество реконструкции при использовании дискретных токенов. В данной статье представляется новая архитектура под названием Infinity, которая использует битовое моделирование для преодоления этих ограничений и достижения более высокого качества генерации изображений.
Infinity вводит концепцию битового моделирования, заменяя традиционные дискретные токены на битовые токены на протяжении всего процесса. Это позволяет значительно увеличить размер словаря токенизатора до 2^64, что превосходит все предыдущие автогрегативные модели. Битовое моделирование состоит из трех основных модулей:
Infinity использует визуальный токенизатор и трансформер для синтеза изображений. Во время обучения модель принимает текстовый запрос и истинное изображение. Визуальный токенизатор сначала кодирует изображение в карту признаков, а затем квантизирует эту карту в несколько масштабных остаточных карт. Эти остаточные карты позволяют постепенно приближаться к непрерывным признакам изображения.
Визуальный токенизатор Infinity использует битовое многомасштабное квантование, что позволяет значительно сократить использование памяти и вычислительных ресурсов. Вместо традиционного векторного квантования используется битовое квантование, что позволяет эффективно обрабатывать большие размеры словаря.
Классификатор IVC предсказывает битовые метки, что позволяет избежать огромных вычислительных затрат, связанных с традиционными классификаторами. Например, при размере словаря V_d = 2^32 и h = 2048, традиционный классификатор потребует 8.8 триллионов параметров, что превышает современные вычислительные возможности. В отличие от этого, IVC требует всего 0.65 миллиона параметров.
Метод самокоррекции позволяет модели справляться с ошибками, возникающими в процессе обучения. В отличие от традиционного подхода, который использует принудительное обучение, битовая самокоррекция вводит случайные изменения в предсказания модели, что позволяет улучшить качество генерации и снизить расхождения между обучением и тестированием.
Infinity демонстрирует мощные законы масштабирования, позволяя значительно улучшить детали и качество изображений по мере увеличения размера токенизатора и трансформера. При этом модель достигает рекордных результатов по сравнению с другими современными моделями, такими как DALL-E 3 и SDXL.
Infinity устанавливает новые рекорды для автогрегативных моделей, превосходя ведущие модели диффузии на различных бенчмарках. Например, модель улучшила оценку GenEval с 0.62 до 0.73 и ImageReward с 0.87 до 0.96, что подтверждает ее превосходство в генерации изображений.
В заключение, Infinity представляет собой значительный шаг вперед в области автогрегативного моделирования для синтеза изображений. Используя битовое моделирование, IVC и самокоррекцию, модель демонстрирует превосходные результаты в генерации изображений высокого разрешения, что открывает новые горизонты для дальнейших исследований и разработок в этой области.