Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "synthesis"

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

synthesisvrar

SplineGS: Новая эра синтеза новизны в динамических сценах

Синтезирование новых видов из монокулярных видео в естественной обстановке представляет собой сложную задачу из-за динамики сцены и отсутствия многоугловых подсказок. Для решения этой проблемы мы предлагаем SplineGS, свободную от COLMAP динамическую 3D Gaussian Splatting (3DGS) архитектуру для высококачественной реконструкции и быстрой отрисовки из монокулярных видео. В ее основе лежит новый метод Motion-Adaptive Spline (MAS), который представляет собой непрерывные динамические 3D Gaussian траектории с использованием кубических сплайнов Эрмита с малым числом контрольных точек. Для MAS мы вводим метод Motion-Adaptive Control points Pruning (MACP), чтобы смоделировать деформацию каждой динамической 3D Gaussian при различных движениях, постепенно уменьшая количество контрольных точек, сохраняя при этом целостность динамического моделирования. Кроме того, мы представляем стратегию совместной оптимизации для оценки параметров камеры и 3D Gaussian атрибутов, используя фотометрию и геометрическую согласованность. Это устраняет необходимость в предварительной обработке Structure-from-Motion и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы по качеству синтеза новых видов для динамических сцен из монокулярных видео, достигая скорости отрисовки в тысячи раз быстрее.

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников

Графические интерфейсы пользователя (GUI) имеют большой потенциал для автоматизации сложных задач в различных цифровых средах, от веб-приложений до настольного программного обеспечения. Однако развитие таких агентов затрудняется отсутствием качественных данных о многоступенчатых траекториях, необходимых для эффективного обучения. Существующие подходы полагаются на дорогую и трудоемкую аннотацию людьми, что делает их неустойчивыми в больших масштабах. Для решения этой проблемы мы предлагаем AgentTrek, масштабируемый поток данных синтеза, который генерирует качественные траектории GUI-агентов, используя веб-уроки. Наш метод автоматически собирает тексты, подобные учебникам, из интернета, трансформирует их в цели задач с пошаговыми инструкциями и использует агента модели визуального языка для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение GUI-агентов с помощью этих синтезированных траекторий значительно улучшает их основание и планирование по сравнению с существующими моделями. Более того, наш подход более экономически эффективен по сравнению с традиционными методами аннотации людьми. Эта работа подчеркивает потенциал управляемого воспроизведения с помощью веб-уроков как жизнеспособной стратегии для обучения GUI-агентов в больших масштабах, открывая путь к более способным и автономным цифровым агентам.

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

MAtCha Gaussians: Атлас Чартов для Высококачественной Геометрии и Фотореализма из Редких Взглядов

Мы представляем новую модель внешнего вида, которая одновременно реализует явное восстановление качественной 3D-сетчатой поверхности и фоторасистичную синтез нового вида из редких образцов вида. Наша ключевая идея заключается в том, чтобы смоделировать базовую геометрию сцены как Атлас Чартов, которые мы отображаем с помощью 2D-гауссовских серфелов (MAtCha Gaussians). MAtCha выделяет высокочастотные детали поверхности сцены из стандартного монокулярного оценщика глубины и уточняет их с помощью рендеринга гауссовских серфелов. Гауссовские серфелы прикрепляются к чартам на лету, удовлетворяя фоторасистичности нейронного объемного рендеринга и четкой геометрии модели сетки, то есть две, казалось бы, противоречащие цели в одной модели. В основе MAtCha лежит новая модель нейронной деформации и структура потерь, которая сохраняет мелкие детали поверхности, выделенные из изученных монокулярных глубин, и в то же время решает их фундаментальные масштабирующие неоднозначности. Результаты обширной экспериментальной валидации демонстрируют современное качество MAtCha в восстановлении поверхности и фоторасистичности на уровне лучших конкурентов, но с драматическим снижением количества входных видов и вычислительного времени. Мы считаем, что MAtCha станет основным инструментом для любого визуального приложения в области зрения, графики и робототехники, которые требуют явной геометрии в дополнение к фоторасистичности. Наша страница проекта следующая: https://anttwo.github.io/matcha/

OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого типа, таких как текст-в-изображение, текст-в-аудио и синтез аудио-в-изображение. OmniFlow продвигает преобразование откорректированного потока (RF), использующееся в моделях текст-в-изображение, для обработки совместного распределения нескольких модальностей. Она превосходит предыдущие модели любого типа по широкому диапазону задач, таких как синтез текст-в-изображение и текст-в-аудио. Наша работа предлагает три ключевых вклада: во-первых, мы расширяем RF до многомодальной настройки и вводим новый механизм управления, позволяющий пользователям гибко контролировать выравнивание между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру MMDiT текста-в-изображение Stable Diffusion 3 и позволяет генерировать аудио и текст. Расширенные модули могут быть эффективно предобучены индивидуально и объединены с обычным текст-в-изображение MMDiT для дообучения. Наконец, мы проводим комплексное исследование по выбору дизайна трансформеров откорректированного потока для генерации аудио и текста в крупном масштабе, предоставляя ценные идеи по оптимизации производительности для различных модальностей. Код будет доступен на https://github.com/jacklishufan/OmniFlows.

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

TEXGen: Генеративная модель диффузии для текстур сеток

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D активов, мало исследований посвящено изучению непосредственно в пространстве текстур, особенно на больших наборах данных. В этой работе мы отходим от традиционного подхода, который полагается на предварительно обученные 2D модели диффузии для оптимизации текстур 3D в режиме тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в самом UV-пространстве текстур. Впервые мы обучаем большую модель диффузии, способную напрямую генерировать текстурные карты высокого разрешения в режиме прямого прохода. Для обеспечения эффективного обучения в UV-пространстве высокого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свёртки на UV-картах с слоями внимания на облаках точек. Используя эту архитектурную конструкцию, мы обучаем модель диффузии с 700 миллионами параметров, которая может генерировать UV-текстурные карты, руководствуясь текстовыми запросами и изображениями с одного ракурса. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая текстово-направленное заполнение текстур, заполнение текстур с разреженными видами и синтез текстур, управляемый текстом. Страница проекта доступна по адресу http://cvmi-lab.github.io/TEXGen/.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

Поле синтеза новых видов сделало значительные шаги вперед благодаря развитию методов полей яркости. Однако большинство техник полей яркости гораздо лучше справляются с интерполяцией новых видов, чем с экстраполяцией, где синтезируемые новые виды значительно отличаются от наблюдаемых тренировочных видов. Мы разработали ViewExtrapolator, подход к синтезу новых видов, который использует генеративные приоритеты стабильной видеодиффузии (SVD) для реалистичной экстраполяции новых видов. Переработав процесс удаления шума SVD, ViewExtrapolator улучшает качество видов, подверженных артефактам, которые отображаются полями яркости, значительно повышая ясность и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором новых видов, который может работать с различными типами 3D-рендеринга, такими как виды, отображаемые из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, ViewExtrapolator не требует тонкой настройки SVD, что делает его эффективным по данным и вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции новых видов. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать нарастающий объем литературы. Могут ли крупные языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с дополнительной функцией извлечения информации, которая отвечает на научные запросы, определяя релевантные отрывки из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный бенчмарк для поиска литературы в нескольких областях, включающий 2967 запросов, написанных экспертами, и 208 длинных ответов в области информатики, физики, нейронаук и биомедицины. На ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что это меньшая и открытая модель. В то время как GPT-4o фальсифицирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Система хранения данных, извлекатель и петля самокоррекции OpenScholar также улучшают стандартные модели LM: например, OpenScholar-GPT4o повышает правильность ответов GPT-4o на 12%. В оценках, проведенных экспертами, предпочтение OpenScholar-8B и OpenScholar-GPT4o было отдано в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы делаем открытыми все наши коды, модели, хранилище данных, данные и демонстрационную версию.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

Акустический объемный рендеринг для нейронных полей импульсных откликов

Реалистичный синтез звука, который точно отображает акустические явления, необходим для создания погружающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (IR), которая описывает, как звук распространяется в данной сцене по различным путям перед достижением позиции слушателя. В данной статье мы представляем Acoustic Volume Rendering (AVR), новый подход, который адаптирует методы объемного рендеринга для моделирования акустических импульсных характеристик. Хотя объемный рендеринг успешно использовался для моделирования полей излучения для изображений и нейронных представлений сцен, IR представляют уникальные вызовы как временные ряды сигналов. Чтобы справиться с этими вызовами, мы вводим рендеринг в частотной области и используем сферическую интеграцию для подгонки измерений IR. Наш метод создает поле импульсной характеристики, которое по своей природе кодирует принципы распространения волн и достигает передовых результатов в синтезе импульсных характеристик для новых положений. Эксперименты показывают, что AVR значительно превосходит текущие ведущие методы. Кроме того, мы разработали платформу акустического моделирования AcoustiX, которая обеспечивает более точные и реалистичные симуляции IR, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.

Edify Image: Высококачественная Генерация Изображений с Использованием Моделей Диффузии в Пиксельном Пространстве

Мы представляем Edify Image, семейство диффузионных моделей, способных генерировать фотореалистичное изображение с пиксельной точностью. Edify Image использует каскадные модели диффузии в пространстве пикселей, обученные с использованием новаторского процесса лапласианской диффузии, при котором сигналы изображения в различных частотных полосах затухают с разной скоростью. Edify Image поддерживает широкий спектр применений, включая синтез изображения из текста, повышение разрешения до 4K, ControlNets, генерацию 360-градусных HDR панорам и тонкую настройку для кастомизации изображений.

Городская Гауссиана V2: Эффективная и Геометрически Точная Реконструкция Больших Сцен

Недавно метод 3D Gaussian Splatting (3DGS) произвел революцию в реконструкции полей яркости, демонстрируя эффективный и высококачественный синтез новых видов. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительной проблемой из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход к реконструкции крупномасштабных сцен, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Опираясь на благоприятные обобщающие возможности 2D Gaussian Splatting (2DGS), мы решаем проблемы сходимости и масштабируемости. В частности, мы реализуем технику плотнения на основе разложения градиентов и регрессии глубины, чтобы устранить размытые артефакты и ускорить сходимость. Для масштабирования мы вводим фильтр удлинения, который смягчает взрывное увеличение количества гауссиан, вызванное деградацией 2DGS. Кроме того, мы оптимизировали пайплайн CityGaussian для параллельного обучения, достигнув сжатия до 10 раз, экономии времени обучения как минимум на 25% и снижения использования памяти на 50%. Мы также установили стандартные геометрические эталоны для крупномасштабных сцен. Экспериментальные результаты показывают, что наш метод обеспечивает обещающий баланс между качеством изображения, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.