Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLM) расширилась до мультимодальных систем, способных обрабатывать текст, изображения и речь в едином фреймворке. Обучение таких моделей требует значительно больше данных и вычислительных ресурсов по сравнению с моделями, работающими только с текстом. Чтобы справиться с этими масштабными задачами, мы представляем архитектуру Mixture-of-Transformers (MoT), которая вносит значительное сокращение вычислительных затрат на предобучение.

MoT разделяет параметры, не связанные с вложениями, по модальностям, включая сети прямого распространения, матрицы внимания и слои нормализации. Это позволяет обрабатывать каждую модальность более эффективно, сохраняя при этом возможность обучения взаимодействий между модальностями. Мы оцениваем MoT в различных настройках и масштабах моделей, демонстрируя её эффективность и производительность.

Метод: Архитектура Mixture-of-Transformers

Основы: Фундаментальные модели для мультимодальной генерации

Недавние достижения в области LLM расширились на обработку модальностей, выходящих за рамки текста. Ключевой подход заключается в токенизации данных, не являющихся текстом, таких как изображения и речь, в дискретные последовательности токенов, и применении автогрессивного моделирования последовательностей, аналогичного текстовым моделям.

Модели для мультимодальной генерации

  • Chameleon (Chameleon Team, 2024) токенизирует изображения в 1024 дискретных токенов, позволяя единообразное обучение по тексту и изображениям.
  • Transfusion (Zhou et al., 2024) использует непрерывные токены изображений и обучение на основе диффузии для улучшения генерации непрерывных модальностей.

Архитектура MoT: Разделение параметров по модальностям

Мы представляем архитектуру Mixture-of-Transformers (MoT), которая расширяет стандартную трансформерную архитектуру, включая модальность-специфичные веса для всех параметров, не связанных с вложениями. Это позволяет модели эффективнее обрабатывать разные модальности, сохраняя при этом способность к обучению взаимодействий между ними.

Формулировка

Пусть ( x = (x_1, ..., x_n) ) будет входной последовательностью токенов, где каждый ( x_i ) принадлежит к модальности ( m_i \in {text, image, speech} ). Типичный слой трансформера может быть выражен как:

[ a = Attn(x, \theta_{attn}) ] [ h = x + LayerNorm_{attn}(a) ] [ output = h + LayerNorm_{ffn}(FFN(h, \theta_{ffn})) ]

В нашей предложенной MoT мы разделяем параметры по модальностям, сохраняя при этом глобальное внимание:

[ a = GlobalAttn(x, {\theta_{m,attn}}, m \in {text, image, speech}) ] [ h_i = x_i + LayerNorm_{m_i,attn}(a_i) ] [ output_i = h_i + LayerNorm_{m_i,ffn}(FFN(h_i, \theta_{m_i,ffn})) ]

Где ( \theta_{m_i,attn} ) и ( \theta_{m_i,ffn} ) — модальность-специфичные матрицы проекции, а ( LayerNorm_{m_i,attn} ) и ( LayerNorm_{m_i,ffn} ) — модальность-специфичные слои нормализации.

Эксперименты

Обзор результатов

Мы оценили архитектуру MoT в трех мультимодальных экспериментальных настройках:

  1. Chameleon: Обе модальности обучаются с использованием автогрессивных целей. Изображения представлены в виде 1024 дискретных токенов.
  2. Chameleon + Speech: Расширение предыдущего сценария включением речи как третьей модальности, представленной дискретными токенами.
  3. Transfusion: Мультимодальное обучение с использованием различных целей для текста (автогрессивные) и изображений (диффузионные).

Производительность в Chameleon

Настройка эксперимента

  • Данные и предобработка: Используется тот же микс модальных данных и те же токенизаторы для текста и изображений, что и у Chameleon Team (2024).
  • Гиперпараметры модели: Оценка MoT проводилась на нескольких масштабах моделей от 37M до 7B параметров.

Ускорение предобучения на масштабе 7B

MoT продемонстрировала значительное ускорение предобучения на масштабе 7B параметров. MoT достигала потерь, эквивалентных плотной модели, за половину времени, достигая эквивалентной производительности на 60k шагов обучения.

Расширение до третьей модальности: Chameleon Text+Image+Speech

Настройка эксперимента

  • Данные: Использовался набор данных SpiRit-LM (Nguyen et al., 2024) для речи.
  • Модельные спецификации: Архитектурные спецификации и конфигурации обучения моделей представлены в таблице 3.

Производительность с интеграцией речи на масштабе 7B

MoT значительно ускорила предобучение для модальности речи по сравнению с плотной и MoE-4x моделями. Анализ шагов обучения показал, что MoT достигает эквивалентных потерь предобучения для речи за 22.9% времени обучения плотной модели.

Мультимодальное обучение в Transfusion

Настройка эксперимента

  • Данные и предобработка: Использовался тот же набор данных, что и у Zhou et al. (2024).
  • Гиперпараметры модели: Модели обучались на пяти различных масштабах от 0.16B до 7B параметров.

Эффективность обучения MoT

В настройке Transfusion MoT демонстрировала значительное ускорение предобучения для модальности изображения на масштабе 7B параметров. MoT достигала эквивалентных потерь предобучения для изображений за 30% времени обучения плотной модели.

Заключение

В этой работе мы представили архитектуру Mixture-of-Transformers (MoT), которая адресует вычислительные вызовы мультимодального предобучения моделей. MoT оптимизирует обработку модальностей, сохраняя при этом взаимодействия между ними. Наши эксперименты показали, что MoT достигает значительного сокращения затрат на обучение, сохраняя или даже превосходя производительность плотных моделей в различных настройках и масштабах.