Свежая выжимка ml и AI статей - каждый день
Понимание и исследование трёхмерного физического мира представляет собой одну из центральных задач в развитии искусственного интеллекта (AI). В данной статье мы рассмотрим систему GenEx, которая делает шаг вперёд в этой области, предлагая платформу для генерации исследуемых миров на основе единственного RGB-изображения. GenEx не только создает 3D-окружение, но и позволяет AI-агентам взаимодействовать с этим окружением, что открывает новые возможности для embodied AI.
Исследуемый генеративный мир — это виртуальная среда, созданная AI, которая ограничена непосредственными окружающими агентами. Этот мир должен быть как физически правдоподобным, так и визуально согласованным. Он представлен панорамными наблюдениями агента, которые отражают текущее состояние окружающей среды.
Задача заключается в том, чтобы сгенерировать первоначальный панорамный вид мира и последовательность мировых представлений, исходя из одного начального изображения и описания. Формально, это можно записать как:
[ p(x_{0:T} | i_0, l_0) = p_{\theta_1}(x | i_0, l_0) ]
где ( x ) — панорамные наблюдения, ( i_0 ) — начальное изображение, а ( l_0 ) — текстовое описание.
Инициализация мира начинается с одного изображения, из которого генерируется полный 360-градусный панорамный вид. Для этого используется модель генерации панорамы, которая учитывает как изображение, так и текстовое описание.
Когда агент перемещается в пределах генерируемой среды, его панорамный вид меняется. Этот переход моделируется как процесс генерации панорамного видео, который преобразует ранее наблюдаемую панораму в новый вид в зависимости от действий агента.
GenEx использует передовые методы генерации для создания динамического 3D-мира. Система позволяет генерировать новые среды на основе единственного изображения, сохраняя при этом согласованность и физическую правдоподобность.
Процесс видео генерации основан на диффузионных моделях, которые обеспечивают плавные переходы между панорамами. Эти модели обучаются на данных, собранных из физических движков, таких как Unreal Engine, что обеспечивает реалистичные и захватывающие результаты.
Агенты могут исследовать генерируемый мир, принимая решения на основе политики, которая определяет их действия. Политика может быть основана на взаимодействии с пользователем или на помощи от GPT-агента.
GenEx поддерживает три основных режима исследования:
Интерактивное Исследование: Агенты могут свободно исследовать мир, управляя направлениями и расстояниями своих перемещений.
GPT-помощь: GPT-агент может предлагать оптимальные действия для повышения качества генерации видео.
Целевая Навигация: Агенты получают конкретные цели и инструкции для навигации, что позволяет им более эффективно исследовать мир.
GenEx демонстрирует высокое качество видео генерации, что подтверждается различными метриками, такими как FVD, SSIM и PSNR. Это качество позволяет создавать реалистичные и интересные 3D-окружения.
Агенты, активно исследуя генерируемый мир, могут непрерывно собирать наблюдения, которые могут быть использованы для построения 3D-карт.
Система GenEx позволяет агентам принимать более информированные решения, собирая данные о неосмотренных частях физического мира и используя их для улучшения своих стратегий.
GenEx представляет собой значительный шаг вперёд в области генерации исследуемых миров и embodied AI. Система не только позволяет создавать динамичные и согласованные 3D-окружения на основе единственного изображения, но и открывает новые горизонты для взаимодействия AI-агентов с окружающей средой. Применение GenEx может значительно улучшить навигацию в реальном мире, интерактивные игры и другие области, требующие глубокого понимания окружающего мира.