Свежая выжимка ml и AI статей - каждый день
С ростом размеров трансформерных моделей, такие как LLM (Large Language Models), параллелизм модели стал ключевым элементом в обучении этих моделей. Различные подходы к параллелизму, такие как Zero Redundancy Optimizer (ZeRO), Tensor Parallelism (TP) и Pipeline Parallelism (PP), были предложены для решения проблем, связанных с обучением больших моделей. В этой статье мы рассмотрим проблему несбалансированного использования вычислительных ресурсов и памяти в параллелизме конвейера, вызванную слоями словаря, и предложим методы для её устранения.
Параллелизм конвейера (PP) является привлекательным из-за низкой стоимости коммуникации и высокой арифметической интенсивности. Однако он сталкивается с двумя основными проблемами:
Типичная архитектура трансформера включает в себя слои словаря в начале и конце конвейера, которые могут значительно увеличивать вычислительную нагрузку и потребление памяти:
Чтобы решить проблему несбалансированности, мы предлагаем метод, называемый Параллелизмом словаря (Vocabulary Parallelism), который включает в себя:
Мы предложили несколько алгоритмов для уменьшения числа коммуникационных барьеров в слоях словаря:
Мы разработали методы для интеграции этих проходов словаря в существующие расписания конвейера, такие как 1F1B и V-Half:
Эксперименты показали, что наш подход:
Наша реализация основана на проекте Megatron-LM, с оптимизациями для уменьшения накладных расходов на коммуникацию и вычисления. Мы также исследовали масштабируемость вычислений слоёв словаря, показав, что наш метод масштабируется эффективно с увеличением числа устройств.
Предложенный метод параллелизма словаря эффективно решает проблему несбалансированности в параллелизме конвейера, улучшая производительность и снижая потребление памяти. Будущие работы могут включать оптимизацию ядер CUDA для слияния форвардных и бэквардных проходов, а также исследование применимости метода к мультимодальным моделям LLM.
Наш код открыт для использования и дальнейшего развития на GitHub: sail-sg/VocabularyParallelism.