Свежая выжимка ml и AI статей - каждый день
Разработка крупных языковых моделей (LLM) расширилась до мультимодальных систем, способных обрабатывать текст, изображения и речь в едином фреймворке. Обучение таких моделей требует значительно больше данных и вычислительных ресурсов по сравнению с моделями, работающими только с текстом. Чтобы справиться с этими масштабными задачами, мы представляем архитектуру Mixture-of-Transformers (MoT), которая вносит значительное сокращение вычислительных затрат на предобучение.
MoT разделяет параметры, не связанные с вложениями, по модальностям, включая сети прямого распространения, матрицы внимания и слои нормализации. Это позволяет обрабатывать каждую модальность более эффективно, сохраняя при этом возможность обучения взаимодействий между модальностями. Мы оцениваем MoT в различных настройках и масштабах моделей, демонстрируя её эффективность и производительность.
Недавние достижения в области LLM расширились на обработку модальностей, выходящих за рамки текста. Ключевой подход заключается в токенизации данных, не являющихся текстом, таких как изображения и речь, в дискретные последовательности токенов, и применении автогрессивного моделирования последовательностей, аналогичного текстовым моделям.
Мы представляем архитектуру Mixture-of-Transformers (MoT), которая расширяет стандартную трансформерную архитектуру, включая модальность-специфичные веса для всех параметров, не связанных с вложениями. Это позволяет модели эффективнее обрабатывать разные модальности, сохраняя при этом способность к обучению взаимодействий между ними.
Пусть ( x = (x_1, ..., x_n) ) будет входной последовательностью токенов, где каждый ( x_i ) принадлежит к модальности ( m_i \in {text, image, speech} ). Типичный слой трансформера может быть выражен как:
[ a = Attn(x, \theta_{attn}) ] [ h = x + LayerNorm_{attn}(a) ] [ output = h + LayerNorm_{ffn}(FFN(h, \theta_{ffn})) ]
В нашей предложенной MoT мы разделяем параметры по модальностям, сохраняя при этом глобальное внимание:
[ a = GlobalAttn(x, {\theta_{m,attn}}, m \in {text, image, speech}) ] [ h_i = x_i + LayerNorm_{m_i,attn}(a_i) ] [ output_i = h_i + LayerNorm_{m_i,ffn}(FFN(h_i, \theta_{m_i,ffn})) ]
Где ( \theta_{m_i,attn} ) и ( \theta_{m_i,ffn} ) — модальность-специфичные матрицы проекции, а ( LayerNorm_{m_i,attn} ) и ( LayerNorm_{m_i,ffn} ) — модальность-специфичные слои нормализации.
Мы оценили архитектуру MoT в трех мультимодальных экспериментальных настройках:
MoT продемонстрировала значительное ускорение предобучения на масштабе 7B параметров. MoT достигала потерь, эквивалентных плотной модели, за половину времени, достигая эквивалентной производительности на 60k шагов обучения.
MoT значительно ускорила предобучение для модальности речи по сравнению с плотной и MoE-4x моделями. Анализ шагов обучения показал, что MoT достигает эквивалентных потерь предобучения для речи за 22.9% времени обучения плотной модели.
В настройке Transfusion MoT демонстрировала значительное ускорение предобучения для модальности изображения на масштабе 7B параметров. MoT достигала эквивалентных потерь предобучения для изображений за 30% времени обучения плотной модели.
В этой работе мы представили архитектуру Mixture-of-Transformers (MoT), которая адресует вычислительные вызовы мультимодального предобучения моделей. MoT оптимизирует обработку модальностей, сохраняя при этом взаимодействия между ними. Наши эксперименты показали, что MoT достигает значительного сокращения затрат на обучение, сохраняя или даже превосходя производительность плотных моделей в различных настройках и масштабах.