Ай Дайджест - категория scene

Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Модели диффузии были применены для завершения сцен 3D LiDAR благодаря их высокой стабильности обучения и качеству завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В этой статье предлагается новый метод дистилляции, адаптированный для моделей завершения сцен 3D LiDAR, названный ScoreLiDAR, который достигает эффективного и качественного завершения сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньше шагов после дистилляции. Для улучшения качества завершения мы также вводим новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены 3D LiDAR. Потеря содержит терм, ограничивающий целостную структуру сцены, и точечный терм, ограничивающий ключевые контрольные точки и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунд на кадр (>5 раз) на SemanticKITTI и достигает превосходной производительности по сравнению с современными моделями завершения сцен 3D LiDAR. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.

2024-12-05completion loss distillation

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

2024-11-26llm motion video