Авторегрессивные модели в компьютерном зрении: обзор
Авторегрессионное моделирование стало огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значимой областью внимания в компьютерном зрении, где они превосходно справляются с созданием высококачественного визуального контента. В NLP авторегрессионные модели обычно работают с субсловными токенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, например, уровень пикселей, уровень токенов или уровень масштаба, что отражает разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В этом обзоре мы всесторонне рассматриваем литературу по авторегрессионным моделям, применяемым в области зрения. Для улучшения читаемости для исследователей с разным научным багажом, мы начинаем с предварительного представления и моделирования последовательностей в зрении. Далее мы делим основные фреймворки визуальных авторегрессионных моделей на три общие подкатегории: модели на основе пикселей, токенов и масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, видео, 3D-объектов и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и 3D медицинский ИИ, с примерно 250 связанными ссылками. В заключение, мы подчеркиваем текущие вызовы для авторегрессионных моделей в зрении и предлагаем потенциальные направления для исследований. Мы также создали репозиторий на Github для организации бумаг, включенных в этот обзор, по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.