Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

С развитием многофункциональных больших языковых моделей (MLLMs) возникает необходимость в их адаптации к более сложным задачам, включая обработку различных модальностей, таких как текст, изображение и звук. Современные модели, такие как GPT-4o от OpenAI, демонстрируют впечатляющие способности в понимании и генерации информации, однако многие из них все еще ограничены в своих возможностях, особенно в области интеграции речи и других модальностей.

В данной статье мы рассмотрим Lyra — новый подход к созданию многофункциональной модели, которая акцентирует внимание на речевой модальности и ее взаимодействии с другими типами данных. Lyra направлена на решение следующих задач: улучшение понимания речи, повышение эффективности работы с данными, а также расширение возможностей работы с длинными речевыми вводами.

Основные концепции Lyra

Многофункциональные большие языковые модели

MLLMs представляют собой архитектуры, которые могут обрабатывать и генерировать данные из различных модальностей. Однако большинство существующих моделей ориентированы только на текст и изображение или текст и речь. Lyra предлагает интегрированный подход, который включает все три модальности: текст, изображение и звук.

Стратегии повышения эффективности

Lyra внедряет три ключевые стратегии для достижения своей цели:

Использование существующих открытых моделей: Lyra начинает с мощных предварительно обученных моделей, таких как LLaMA3 и Qwen2-VL, что позволяет сократить затраты на обучение и требования к данным.
Регуляризация и извлечение информации: Модель использует латентный кросс-модальный регуляризатор и извлекатель, чтобы улучшить взаимодействие между речью и другими модальностями, что повышает общую производительность.
Создание высококачественных наборов данных: Lyra включает в себя обширный набор данных, состоящий из 1.5 миллиона многофункциональных образцов и 12 тысяч длинных речевых образцов, что позволяет модели эффективно обрабатывать сложные и длинные речевые вводы.

Преимущества Lyra

Lyra демонстрирует несколько ключевых преимуществ по сравнению с другими моделями:

Универсальность: Модель может обрабатывать звук, речь, изображения и видео, включая сложные долгосрочные задачи.
Эффективность: Lyra требует меньше данных для обучения и демонстрирует более высокую скорость обработки, что делает ее подходящей для приложений с низкой задержкой.
Улучшенная производительность: Lyra показывает лучшие результаты в задачах, связанных с пониманием визуального языка, речи и текста, по сравнению с существующими моделями.

Архитектура Lyra

Компоненты системы

Архитектура Lyra состоит из четырех основных компонентов:

Латентный кросс-модальный регуляризатор: Этот компонент обеспечивает согласованность между токенами различных модальностей, минимизируя потерю информации при обработке речевых данных.
Модуль LoRA для многофункциональности: Этот модуль позволяет эффективно интегрировать различные модальности, сохраняя при этом оригинальные возможности модели.
Латентный извлекатель многофункциональности: Этот компонент динамически выбирает токены, которые имеют отношение к заданной задаче, тем самым снижая вычислительную нагрузку.
Генерация в режиме реального времени: Lyra поддерживает потоковую генерацию текста и речи, что позволяет модели одновременно выдавать текстовые и аудиовыходы.

Модуль LoRA

LoRA (Low-Rank Adaptation) является ключевым элементом, который обеспечивает эффективное обучение модели с минимальными затратами данных. Вместо полного переобучения модели, LoRA позволяет добавлять адаптивные параметры, которые могут быть обучены с использованием меньшего объема данных.

Данные и оценка

Наборы данных

Для обучения Lyra были собраны два типа наборов данных:

Многофункциональный набор данных: Включает 1.5 миллиона образцов, состоящих из текстов, изображений и аудиофайлов. Этот набор данных обеспечивает разнообразие и богатство информации для обучения модели.
Набор данных для длинной речи: Включает 12 тысяч образцов длинных речевых вводов, что позволяет модели обрабатывать аудио длительностью до двух часов.

Оценка производительности

Lyra была протестирована на различных задачах, включая понимание речи, генерацию текста и обработку изображений. Результаты показывают, что модель значительно превосходит существующие решения, особенно в контексте интеграции речи и других модальностей.

Заключение

Lyra представляет собой значительный шаг вперед в области многофункциональных больших языковых моделей. Фокус на речевой модальности и интеграции с другими типами данных позволяет модели достигать высоких результатов при минимальных затратах на обучение и данные. Мы надеемся, что дальнейшие исследования в этой области помогут раскрыть потенциал речевых данных и их взаимодействия с другими модальностями, что приведет к созданию более мощных и универсальных AI-систем.

Статья на arxiv Оригинал pdf multimodal language comprehension

Ай Дайджест