Ай Дайджест - категория hybrid

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

2024-12-09gaussian accuracy reconstruction

Лучшее из двух миров: преимущества гибридных моделей граф-секвенция

Современные модели последовательностей (например, трансформеры, линейные РНС и т.д.) вышли на передовые позиции в последних фреймворках глубокого обучения, в основном благодаря своей эффективности, способности к представлению данных и/или возможности захвата дальних зависимостей. Применение этих моделей последовательностей к данным с графовой структурой недавно стало популярным как альтернатива Сетям с Передачей Сообщений (MPNN). Однако, существует недостаток общих основ относительно того, что делает модель последовательности графа хорошей, а также математического описания преимуществ и недостатков использования различных моделей последовательностей для обучения на графах. В этом направлении мы сначала представляем Модель Последовательностей Графов (GSM), единую платформу для адаптации моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное Кодирование, которое кодирует локальные окрестности вокруг каждой вершины; и (3) Глобальное Кодирование, которое использует масштабируемую модель последовательности для захвата дальних зависимостей в последовательностях. Эта платформа позволяет нам понимать, оценивать и сравнивать мощность различных базовых моделей последовательностей в задачах с графами. Наши теоретические оценки представительной способности трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач графов показывают, что существуют как положительные, так и отрицательные стороны для обоих типов моделей. Опираясь на это наблюдение, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм Иерархического Аффинного Кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают дизайн GSM++, показывая, что GSM++ превосходит базовые модели в большинстве тестов на эталонных примерах.

2024-11-26hybrid encoding transformers

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

2024-11-04causal modeling hybrid