Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Современные мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текст и код), так и непрерывных данных (например, видео, аудио и действия роботов). Традиционные системы часто зависят от построения сложных конвейеров или использования внешних инструментов. Например, языковые модели воспринимают и генерируют аудио или изображения с помощью независимых модулей, таких как автоматическое распознавание речи и текст в речь. Однако такая модульная архитектура затрудняет оптимизацию в конечном итоге, поскольку теряется информация между модулями, что ограничивает производительность.

В этой статье мы представляем концепцию латентного языкового моделирования (LatentLM), которая бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. Мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде латентных векторов и вводим диффузию следующего токена для автогрессивной генерации этих векторов. Кроме того, мы разработали σ-VAE, чтобы справиться с проблемами коллапса дисперсии, что имеет решающее значение для автогрессивного моделирования.

Латентное языковое моделирование

LatentLM позволяет автогрессивно воспринимать и генерировать мультимодальные последовательности, объединяя дискретные и непрерывные данные. Модель основана на причинном трансформере, где t-й токен предсказывается на основе предыдущих t-1 токенов. Непрерывные данные генерируются с помощью диффузии следующего токена, а дискретные токены создаются с помощью предсказания следующего токена, аналогично традиционному языковому моделированию.

Архитектура модели

LatentLM использует причинный трансформер, где входные данные представляются в виде векторов. Для дискретных токенов используется таблица поиска для получения векторного представления. Для непрерывных данных мы применяем VAE, который сжимает входные данные в латентные векторы. После получения векторных представлений они упаковываются в матрицу, которая подается в языковую модель на основе причинного трансформера.

Диффузия следующего токена

LatentLM автогрессивно генерирует непрерывные токены с помощью диффузии. Мы используем диффузионную голову для поэтапной генерации латентного вектора, основываясь на скрытом состоянии трансформера. Этот процесс состоит из двух этапов: прямого и обратного. Прямой процесс постепенно добавляет шум к входным данным, в то время как обратный процесс обучается поэтапно устранять шум, восстанавливая оригинальные векторы.

σ-VAE: Улучшение представления непрерывных данных

Для представления непрерывных данных мы используем вариационный автокодировщик (VAE), который кодирует входные данные в латентное пространство и затем декодирует их обратно в оригинальное пространство. Однако традиционные VAE подвержены коллапсу дисперсии, что негативно сказывается на производительности автогрессивного моделирования. В этой работе мы предлагаем σ-VAE, который предотвращает коллапс дисперсии, устанавливая фиксированную дисперсию в латентном пространстве.

Обучение и вывод

Во время обучения мы вычисляем потери на уровне токенов. Для дискретных данных используется стандартная языковая модель, а для непрерывных данных — функция потерь, описанная ранее. Обучение LatentLM позволяет эффективно использовать существующую инфраструктуру распределенного обучения больших языковых моделей.

Эксперименты

Мы провели обширные эксперименты по генерации изображений, мультимодальным большим языковым моделям и синтезу речи, чтобы продемонстрировать гибкость и эффективность LatentLM.

Генерация изображений

Эксперименты по генерации изображений проводились на наборе данных ImageNet. LatentLM демонстрирует конкурентоспособную производительность по сравнению с моделями, основанными на диффузии и дискретных токенах. Результаты показывают, что LatentLM превосходит другие модели, такие как DiT, в условиях масштабирования размера модели.

Мультимодальные большие языковые модели

Мы обучили мультимодальные большие языковые модели с использованием LatentLM для унифицированного понимания и генерации. Модель может обрабатывать как текстовые данные, так и пары изображений и текста, что упрощает процессы обучения и вывода.

Синтез речи

LatentLM также применим для синтеза речи, достигая лучших результатов по сравнению с предыдущими системами, такими как VALL-E 2. Используя непрерывные представления, мы достигаем значительно более высокого коэффициента сжатия и меньшего количества шагов декодирования.

Заключение и будущее

LatentLM представляет собой высокоэффективный и масштабируемый подход для продвижения больших мультимодальных моделей. В будущем мы планируем исследовать возможности латентного мультимодального рассуждения, генерации видео и взаимодействия с роботами. Также будет полезно применить LatentLM к текстовым данным, что позволит улучшить эффективность генерации и обработки.

LatentLM открывает новые возможности для создания более сложных мультимодальных систем, которые могут эффективно взаимодействовать с различными типами данных.

Статья на arxiv Оригинал pdf multimodal generative latency

Ай Дайджест