Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "neural"

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

Глобальные и плотные встраивания Земли: Основные концепции и подходы

С постоянно растущими объемами данных наблюдения за Землей, находящимися в архиве крупных программ, таких как Copernicus, возникает потребность в эффективных векторных представлениях исходных сырых данных. Подход к извлечению представлений признаков из предобученных глубоких нейронных сетей является мощным методом, который может предоставить семантические абстракции входных данных. Однако способ, которым это делается для архивов изображений, содержащих геопространственные данные, еще не определен. В этой работе предлагается расширение уже существующего общественного проекта Major TOM, сосредоточенного на предоставлении и стандартизации открытых и бесплатных наборов данных, готовых к использованию с искусственным интеллектом, для наблюдения за Землей. Кроме того, четыре глобальных и плотныхembedding набора данных открыто и бесплатно публикуются вместе с публикацией этой рукописи, что приводит к созданию самого обширного глобального открытого набора данных геопространственных визуальных встраиваний по охвату поверхности Земли.

MAtCha Gaussians: Атлас Чартов для Высококачественной Геометрии и Фотореализма из Редких Взглядов

Мы представляем новую модель внешнего вида, которая одновременно реализует явное восстановление качественной 3D-сетчатой поверхности и фоторасистичную синтез нового вида из редких образцов вида. Наша ключевая идея заключается в том, чтобы смоделировать базовую геометрию сцены как Атлас Чартов, которые мы отображаем с помощью 2D-гауссовских серфелов (MAtCha Gaussians). MAtCha выделяет высокочастотные детали поверхности сцены из стандартного монокулярного оценщика глубины и уточняет их с помощью рендеринга гауссовских серфелов. Гауссовские серфелы прикрепляются к чартам на лету, удовлетворяя фоторасистичности нейронного объемного рендеринга и четкой геометрии модели сетки, то есть две, казалось бы, противоречащие цели в одной модели. В основе MAtCha лежит новая модель нейронной деформации и структура потерь, которая сохраняет мелкие детали поверхности, выделенные из изученных монокулярных глубин, и в то же время решает их фундаментальные масштабирующие неоднозначности. Результаты обширной экспериментальной валидации демонстрируют современное качество MAtCha в восстановлении поверхности и фоторасистичности на уровне лучших конкурентов, но с драматическим снижением количества входных видов и вычислительного времени. Мы считаем, что MAtCha станет основным инструментом для любого визуального приложения в области зрения, графики и робототехники, которые требуют явной геометрии в дополнение к фоторасистичности. Наша страница проекта следующая: https://anttwo.github.io/matcha/

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством

Токенизация речи с помощью нейронных аудиокодеков является важной частью современных AI-пipelines для генерации или понимания речи, как отдельно, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредоточивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными предвзятостями. В данной работе мы показываем, что, увеличивая архитектуру трансформера с большим количеством параметров для решения этой задачи и применяя гибкое ограничение на конечную скалярную квантизацию (FSQ), можно достичь качества речи на уровне передовых технологий при крайне низких битовых скоростях 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые линии как в объективных, так и в субъективных тестах.

S,POT,L,IGHT: Управляемое перерисовывание объектов с использованием теней

Недавние исследования показали, что модели диффузии могут быть использованы в качестве мощных нейронных рендеринговых движков, которые могут быть использованы для вставки виртуальных объектов в изображения. Однако, в отличие от типичных физических рендеров, нейронные рендеринговые движки ограничены отсутствием ручного контроля над настройками освещения, что часто является важным для улучшения или персонализации желаемого результата изображения. В этой статье мы показываем, что точный контроль освещения можно достичь для переосвещения объекта, просто указав желаемые тени объекта. Удивительным образом мы показываем, что внедрение только тени объекта в предобученный основанный на диффузии нейронный рендерер позволяет ему точно создавать тени объекта в соответствии с желаемой позицией света, при этом правильно гармонизируя объект (и его тень) в целевом фоновом изображении. Наш метод, SpotLight, использует существующие подходы к нейронному рендерингу и достигает управляемых результатов переосвещения без дополнительного обучения. В частности, мы демонстрируем его использование с двумя нейронными рендерерами из недавней литературы. Мы показываем, что SpotLight достигает превосходных результатов композитинга объектов, как количественно, так и перцептивно, что подтверждено исследованием пользователей, превосходя существующие модели на основе диффузии, специально разработанные для переосвещения.

Декуплированная оптимизация моментов: Новая парадигма для обучения крупных нейронных сетей

Обучение крупных нейронных сетей обычно требует обмена градиентами между акселераторами через специализированные высокоскоростные соединения. Опираясь на принципы обработки сигналов, такие как частотное разложение и сжатие энергии, мы демонстрируем, что синхронизация полных состояний оптимизатора и параметров модели в процессе обучения не является необходимой. Разделяя обновления момента и позволяя контролируемое расхождение в состояниях оптимизатора между акселераторами, мы достигаем улучшенной сходимости по сравнению с современными оптимизаторами. Мы представляем {De}coupled {Mo}mentum (DeMo), объединенный оптимизатор и алгоритм параллельной обработки данных, который снижает требования к межакселераторной связи на несколько порядков. Это позволяет обучать крупные нейронные сети даже при ограниченной пропускной способности сети и неоднородном оборудовании. Наш метод не зависит от топологии и архитектуры и поддерживает масштабируемое распределенное обучение с синхронизацией тактовых импульсов при незначительных затратах вычислительных ресурсов и памяти. Эмпирические результаты показывают, что модели, обученные с помощью DeMo, соответствуют или превосходят производительность эквивалентных моделей, обученных с помощью AdamW, устраняя необходимость в высокоскоростных соединениях при предварительном обучении крупномасштабных фундаментальных моделей. Открытая реализация на базе PyTorch опубликована на GitHub по адресу https://github.com/bloc97/DeMo.

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Современное программное обеспечение для визуальных эффектов (VFX) позволяет талантливым художникам создавать изображения практически чего угодно. Однако процесс создания остается трудоемким, сложным и в основном недоступным для повседневных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Внимательно интегрируя нейронное моделирование сцен, генерацию кода на основе LLM и физическое моделирование, AutoVFX способен предоставлять физически обоснованные, фотореалистичные эффекты редактирования, которые можно контролировать напрямую с помощью инструкций на естественном языке. Мы провели обширные эксперименты для проверки эффективности AutoVFX на широком спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX превосходит все конкурирующие методы с большим отрывом в качестве генерации, соответствии инструкциям, универсальности редактирования и физической правдоподобности.

llmvfxautovfx

NeuZip: Эффективная компрессия нейронных сетей для обучения и вывода

Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью устройства во время обучения и вывода. Хотя применение техник, таких как квантование, может облегчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей точкой в нейронных сетях. С помощью NeuZip мы можем достичь эффективного по памяти обучения и вывода без ущерба для производительности. В частности, мы значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B, с 31 ГБ до менее чем 16 ГБ, при этом динамика обучения остается полностью неизменной. Во время вывода наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти безошибочную производительность. Наш код доступен публично.