Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "viewpoint"

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).