Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "approximation"

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.