Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "convergence"

Новый фреймворк федеративного обучения против атак инверсии градиентов

Федеративное обучение (FL) нацелено на защиту конфиденциальности данных, позволяя клиентам совместно обучать модели машинного обучения без обмена своими сырыми данными. Тем не менее, недавние исследования показывают, что информация, обменяемая в процессе FL, подвержена атакам инверсии градиента (GIA), и, следовательно, различные методы защиты конфиденциальности были интегрированы в FL для предотвращения таких атак, такие как безопасные вычисления с участием нескольких сторон (SMC), гомоморфное шифрование (HE) и дифференциальная конфиденциальность (DP). Несмотря на их способность защищать конфиденциальность данных, эти подходы по своей природе включают значительные компромиссы между конфиденциальностью и полезностью. Переосмысливая ключ к раскрытию конфиденциальности в FL в условиях GIA, который заключается в частом обмене градиентами модели, содержащими личные данные, мы принимаем новую перспективу, разрабатывая новую структуру FL, сохраняющую конфиденциальность, которая эффективно "разрывает прямую связь" между общими параметрами и локальными личными данными для защиты от GIA. В частности, мы предлагаем структуру федеративного обучения с гиперсетями (HyperFL), которая использует гиперсети для генерации параметров локальной модели, и только параметры гиперсети загружаются на сервер для агрегации. Теоретические анализы демонстрируют скорость сходимости предложенной структуры HyperFL, в то время как обширные экспериментальные результаты показывают возможность сохранения конфиденциальности и сопоставимую производительность HyperFL. Код доступен на https://github.com/Pengxin-Guo/HyperFL.

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

Декуплированная оптимизация моментов: Новая парадигма для обучения крупных нейронных сетей

Обучение крупных нейронных сетей обычно требует обмена градиентами между акселераторами через специализированные высокоскоростные соединения. Опираясь на принципы обработки сигналов, такие как частотное разложение и сжатие энергии, мы демонстрируем, что синхронизация полных состояний оптимизатора и параметров модели в процессе обучения не является необходимой. Разделяя обновления момента и позволяя контролируемое расхождение в состояниях оптимизатора между акселераторами, мы достигаем улучшенной сходимости по сравнению с современными оптимизаторами. Мы представляем {De}coupled {Mo}mentum (DeMo), объединенный оптимизатор и алгоритм параллельной обработки данных, который снижает требования к межакселераторной связи на несколько порядков. Это позволяет обучать крупные нейронные сети даже при ограниченной пропускной способности сети и неоднородном оборудовании. Наш метод не зависит от топологии и архитектуры и поддерживает масштабируемое распределенное обучение с синхронизацией тактовых импульсов при незначительных затратах вычислительных ресурсов и памяти. Эмпирические результаты показывают, что модели, обученные с помощью DeMo, соответствуют или превосходят производительность эквивалентных моделей, обученных с помощью AdamW, устраняя необходимость в высокоскоростных соединениях при предварительном обучении крупномасштабных фундаментальных моделей. Открытая реализация на базе PyTorch опубликована на GitHub по адресу https://github.com/bloc97/DeMo.

Осторожные оптимизаторы: Улучшение обучения одной строкой кода

AdamW долгое время был стандартным оптимизатором для предобучения трансформеров. Многие годы наше сообщество искало более быстрые и стабильные оптимизаторы, при этом стремясь к исключительно положительным результатам. В этой работе мы предлагаем однострочное изменение в Pytorch для любого оптимизатора на основе импульса, который мы переименовали в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонову функцию Adam и не нарушает гарантии сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое новое семейство оптимизаторов. Среди них мы выбрали самый простой для эмпирических экспериментов, показав ускорение предобучения Llama и MAE до 1,47 раза. Код доступен по адресу https://github.com/kyleliang919/C-Optim.

Городская Гауссиана V2: Эффективная и Геометрически Точная Реконструкция Больших Сцен

Недавно метод 3D Gaussian Splatting (3DGS) произвел революцию в реконструкции полей яркости, демонстрируя эффективный и высококачественный синтез новых видов. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительной проблемой из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход к реконструкции крупномасштабных сцен, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Опираясь на благоприятные обобщающие возможности 2D Gaussian Splatting (2DGS), мы решаем проблемы сходимости и масштабируемости. В частности, мы реализуем технику плотнения на основе разложения градиентов и регрессии глубины, чтобы устранить размытые артефакты и ускорить сходимость. Для масштабирования мы вводим фильтр удлинения, который смягчает взрывное увеличение количества гауссиан, вызванное деградацией 2DGS. Кроме того, мы оптимизировали пайплайн CityGaussian для параллельного обучения, достигнув сжатия до 10 раз, экономии времени обучения как минимум на 25% и снижения использования памяти на 50%. Мы также установили стандартные геометрические эталоны для крупномасштабных сцен. Экспериментальные результаты показывают, что наш метод обеспечивает обещающий баланс между качеством изображения, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.