Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

GenEx: Генерация Исследуемого Мира

Понимание и исследование трёхмерного физического мира представляет собой одну из центральных задач в развитии искусственного интеллекта (AI). В данной статье мы рассмотрим систему GenEx, которая делает шаг вперёд в этой области, предлагая платформу для генерации исследуемых миров на основе единственного RGB-изображения. GenEx не только создает 3D-окружение, но и позволяет AI-агентам взаимодействовать с этим окружением, что открывает новые возможности для embodied AI.

Концепция Исследуемого Генеративного Мира

Определение

Исследуемый генеративный мир — это виртуальная среда, созданная AI, которая ограничена непосредственными окружающими агентами. Этот мир должен быть как физически правдоподобным, так и визуально согласованным. Он представлен панорамными наблюдениями агента, которые отражают текущее состояние окружающей среды.

Формулировка Проблемы

Задача заключается в том, чтобы сгенерировать первоначальный панорамный вид мира и последовательность мировых представлений, исходя из одного начального изображения и описания. Формально, это можно записать как:

[ p(x_{0:T} | i_0, l_0) = p_{\theta_1}(x | i_0, l_0) ]

где ( x ) — панорамные наблюдения, ( i_0 ) — начальное изображение, а ( l_0 ) — текстовое описание.

Инициализация Мира

Инициализация мира начинается с одного изображения, из которого генерируется полный 360-градусный панорамный вид. Для этого используется модель генерации панорамы, которая учитывает как изображение, так и текстовое описание.

Переход Мира

Когда агент перемещается в пределах генерируемой среды, его панорамный вид меняется. Этот переход моделируется как процесс генерации панорамного видео, который преобразует ранее наблюдаемую панораму в новый вид в зависимости от действий агента.

Генерация Исследуемого Мира

Динамическое Генерирование

GenEx использует передовые методы генерации для создания динамического 3D-мира. Система позволяет генерировать новые среды на основе единственного изображения, сохраняя при этом согласованность и физическую правдоподобность.

Технология Видео Генерации

Процесс видео генерации основан на диффузионных моделях, которые обеспечивают плавные переходы между панорамами. Эти модели обучаются на данных, собранных из физических движков, таких как Unreal Engine, что обеспечивает реалистичные и захватывающие результаты.

Исследование в Генерируемом Мире

Политика Исследования

Агенты могут исследовать генерируемый мир, принимая решения на основе политики, которая определяет их действия. Политика может быть основана на взаимодействии с пользователем или на помощи от GPT-агента.

Режимы Исследования

GenEx поддерживает три основных режима исследования:

  1. Интерактивное Исследование: Агенты могут свободно исследовать мир, управляя направлениями и расстояниями своих перемещений.

  2. GPT-помощь: GPT-агент может предлагать оптимальные действия для повышения качества генерации видео.

  3. Целевая Навигация: Агенты получают конкретные цели и инструкции для навигации, что позволяет им более эффективно исследовать мир.

Применение GenEx

Качество Генерации

GenEx демонстрирует высокое качество видео генерации, что подтверждается различными метриками, такими как FVD, SSIM и PSNR. Это качество позволяет создавать реалистичные и интересные 3D-окружения.

Активное 3D Картирование

Агенты, активно исследуя генерируемый мир, могут непрерывно собирать наблюдения, которые могут быть использованы для построения 3D-карт.

Усовершенствование Принятия Решений

Система GenEx позволяет агентам принимать более информированные решения, собирая данные о неосмотренных частях физического мира и используя их для улучшения своих стратегий.

Заключение

GenEx представляет собой значительный шаг вперёд в области генерации исследуемых миров и embodied AI. Система не только позволяет создавать динамичные и согласованные 3D-окружения на основе единственного изображения, но и открывает новые горизонты для взаимодействия AI-агентов с окружающей средой. Применение GenEx может значительно улучшить навигацию в реальном мире, интерактивные игры и другие области, требующие глубокого понимания окружающего мира.