Свежая выжимка ml и AI статей - каждый день
Современные модели машинного обучения, такие как LLM (Large Language Models) и AI (Artificial Intelligence), демонстрируют впечатляющие способности к генерации контента, включая видео. OpenAI's Sora подчеркивает потенциал видео генерации для создания моделей мира, которые следуют фундаментальным физическим законам. Однако, способность этих моделей открывать такие законы исключительно на основе визуальных данных, без вмешательства человеческих предположений, вызывает вопросы. Модель мира, которая действительно изучает истинные законы, должна предсказывать события, устойчивые к нюансам, и корректно экстраполировать на невидимые ранее сценарии.
В этом исследовании мы оцениваем модели генерации видео в трех ключевых сценариях: внутри распределения (in-distribution, ID), вне распределения (out-of-distribution, OOD) и комбинаторная генерализация. Мы разработали тестовую среду 2D симуляции для движения объектов и столкновений, чтобы генерировать видео, управляемые одним или несколькими законами классической механики. Это предоставляет неограниченный источник данных для масштабных экспериментов и позволяет количественно оценить, следуют ли сгенерированные видео физическим законам.
Мы обучали модели видео генерации на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную генерализацию внутри распределения, измеряемое поведение масштабирования для комбинаторной генерализации, но неудачу в сценариях вне распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах генерализации этих моделей:
Модели не способны абстрагировать общие физические правила и вместо этого демонстрируют поведение "на основе случаев", то есть имитируют ближайший пример из обучающей выборки.
При генерализации на новые случаи модели приоритетизируют различные факторы при ссылке на обучающие данные: цвет > размер > скорость > форма.
Это исследование предполагает, что масштабирование само по себе недостаточно для того, чтобы модели видео генерации могли открывать фундаментальные физические законы, несмотря на его роль в общем успехе Sora.
В классической физике законы описываются математическими уравнениями, которые предсказывают будущее состояние и динамику системы на основе начальных условий. В контексте видео генерации, каждый кадр представляет момент времени, и предсказание физических законов соответствует генерации будущих кадров на основе прошлых состояний. Рассмотрим физический процесс, который включает в себя несколько скрытых переменных ( z = (z_1, z_2, ..., z_k) \in Z \subseteq \mathbb{R}^k ), каждая из которых представляет определенный физический параметр, например, скорость или положение. В соответствии с классической механикой, эти скрытые переменные эволюционируют по дифференциальному уравнению ( \dot{z} = F(z) ). В дискретном варианте, если временной интервал между двумя последовательными кадрами составляет ( \delta ), то ( z_{t+1} \approx z_t + \delta F(z_t) ).
Функция рендеринга обозначается как ( R(·): Z \to \mathbb{R}^{3 \times H \times W} ), которая преобразует состояние мира в изображение размером ( H \times W ) с RGB каналами. Рассмотрим видео ( V = {I_1, I_2, ..., I_L} ), состоящее из ( L ) кадров, следующее динамике классической механики. Физическая согласованность требует, чтобы существовала серия скрытых переменных, удовлетворяющих следующим требованиям:
Мы обучаем модель генерации видео ( p ) с параметрами ( \theta ), где ( p_\theta(I_1, I_2, ..., I_L) ) характеризует её понимание кадров видео. Мы можем предсказывать последующие кадры, сэмплируя из ( p_\theta(I'{c+1}, ...I'L | I_1, ..., I_c) ) на основе начальных кадров. Переменная ( c ) обычно принимает значение 1 или 3 в зависимости от задач. Таким образом, потеря физической согласованности может быть определена как ( -\log p\theta(I{c+1}, ..., I_L | I_1, ..., I_c) ). Она измеряет, насколько вероятно, что предсказанные значения будут соответствовать реальному развитию событий в мире.
Следуя архитектуре Sora, мы используем вариационный автоэнкодер (VAE) и модель диффузии (DiT) для генерации видео. VAE сжимает видео в латентное представление как в пространстве, так и во времени, в то время как модель диффузии моделирует процесс деноизинга. Этот подход демонстрирует сильную масштабируемость и достигает обещающих результатов в генерации высококачественных видео.
VAE модель. Мы используем (2+1)D-VAE для проекции видео в латентное пространство. Начиная со структуры SD1.5-VAE, мы расширяем её в пространственно-временной автоэнкодер с использованием 3D блоков. Все параметры (2+1)D-VAE предварительно обучены на высококачественных изображениях и видео данных для поддержания сильного моделирования внешнего вида при одновременном обеспечении моделирования движения.
Модель диффузии. Данное сжатое латентное представление из VAE модели, мы преобразуем его в последовательность пространственно-временных патчей, как токены для трансформера. Особенно, само-внимание применяется ко всей пространственно-временной последовательности видео токенов без различия между пространственными и временными измерениями. Для позиционного встраивания используется 3D вариант RoPE.
Предположим, что у нас есть модель генерации видео, обученная на основе вышеизложенной формулировки. Как мы можем определить, если она открыла основные физические законы? Установленный закон описывает поведение естественного мира, например, как объекты двигаются и взаимодействуют. Таким образом, модель видео, интегрирующая истинные физические законы, должна выдерживать экспериментальную проверку, производя разумные предсказания в любых обстоятельствах, что демонстрирует её способность к генерализации.
Для комплексной оценки этого мы рассмотрим следующую категоризацию генерализации:
Внутри распределения (ID) генерализация описывает ситуацию, когда обучающие и тестовые данные принадлежат к одному и тому же распределению. В нашем случае, как обучающие, так и тестовые данные следуют одному закону и находятся в одном и том же домене.
Вне распределения (OOD) генерализация относится к способности модели экстраполировать на сценарии, которые никогда не наблюдались ранее. Это необходимая оценка, так как она указывает, может ли модель изучить принципиальные правила из данных.
Комбинаторная генерализация представляет собой ситуацию между ID и OOD, которая имеет больше практической ценности. Она оценивает способность модели эффективно комбинировать релевантную информацию из прошлого опыта в новых способах.