Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "simulation"

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

Акустический объемный рендеринг для нейронных полей импульсных откликов

Реалистичный синтез звука, который точно отображает акустические явления, необходим для создания погружающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (IR), которая описывает, как звук распространяется в данной сцене по различным путям перед достижением позиции слушателя. В данной статье мы представляем Acoustic Volume Rendering (AVR), новый подход, который адаптирует методы объемного рендеринга для моделирования акустических импульсных характеристик. Хотя объемный рендеринг успешно использовался для моделирования полей излучения для изображений и нейронных представлений сцен, IR представляют уникальные вызовы как временные ряды сигналов. Чтобы справиться с этими вызовами, мы вводим рендеринг в частотной области и используем сферическую интеграцию для подгонки измерений IR. Наш метод создает поле импульсной характеристики, которое по своей природе кодирует принципы распространения волн и достигает передовых результатов в синтезе импульсных характеристик для новых положений. Эксперименты показывают, что AVR значительно превосходит текущие ведущие методы. Кроме того, мы разработали платформу акустического моделирования AcoustiX, которая обеспечивает более точные и реалистичные симуляции IR, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.

AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Современное программное обеспечение для визуальных эффектов (VFX) позволяет талантливым художникам создавать изображения практически чего угодно. Однако процесс создания остается трудоемким, сложным и в основном недоступным для повседневных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Внимательно интегрируя нейронное моделирование сцен, генерацию кода на основе LLM и физическое моделирование, AutoVFX способен предоставлять физически обоснованные, фотореалистичные эффекты редактирования, которые можно контролировать напрямую с помощью инструкций на естественном языке. Мы провели обширные эксперименты для проверки эффективности AutoVFX на широком спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX превосходит все конкурирующие методы с большим отрывом в качестве генерации, соответствии инструкциям, универсальности редактирования и физической правдоподобности.

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."