Случайная Авторегрессивная Визуализация
Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.