Maya: Многоязычная мультимодальная модель, настроенная на инструкции

С развитием технологий искусственного интеллекта, особенно в области обработки естественного языка и компьютерного зрения, модели, которые могут работать с визуальными и текстовыми данными одновременно, становятся всё более популярными. Эти модели, известные как Vision-Language Models (VLMs), позволяют компьютерам понимать и интерпретировать визуальную информацию на основе текстовых подсказок. Однако большинство современных VLMs сосредоточены на высокоресурсных языках, что создает значительные пробелы в их способности обрабатывать низко-ресурсные языки и учитывать культурные контексты.

В этой статье рассматривается Maya, новая открытая многоязычная мультимодальная модель, которая направлена на решение этих проблем, обеспечивая поддержку восьми языков и акцентируя внимание на качестве данных и культурной чувствительности.

Проблемы существующих моделей

Несмотря на значительные достижения в разработке больших языковых моделей (LLMs) и VLMs, текущие модели сталкиваются с несколькими проблемами:

Ограниченная поддержка языков: Большинство существующих VLMs обучаются на данных, доступных в высокоресурсных языках, таких как английский, что приводит к недостаточной производительности на низко-ресурсных языках.
Культурные контексты: Модели часто не способны адекватно учитывать культурные нюансы и контексты, что может привести к неправильным интерпретациям визуальной информации.
Токсичность данных: Существующие наборы данных для обучения часто содержат токсичный и культурно нечувствительный контент, что может усугублять предвзятости и стереотипы.

Цели и задачи Maya

Maya была разработана с целью преодоления указанных выше проблем. Основные цели проекта включают:

Создание многоязычного набора данных для предварительного обучения, который включает в себя 558 000 изображений на восьми языках.
Проведение всестороннего анализа токсичности в существующих наборах данных и создание новой версии, свободной от токсичности.
Разработка мультимодальной модели, которая поддерживает эти языки и улучшает культурное и лингвистическое понимание в задачах взаимодействия между изображениями и текстом.

Создание и фильтрация набора данных

Методология создания набора данных

Для создания набора данных, подходящего для обучения Maya, была разработана новая методология, которая включает в себя:

Параллельное создание набора данных: Используя гибридный метод перевода, был создан многоязычный набор данных, оптимизированный для разнообразного языкового представления.
Оптимизация подсказок: Включает создание и тестирование различных шаблонов подсказок для достижения наилучших результатов перевода.
Масштабируемая генерация данных: Использует API для обработки больших объемов данных с учетом качества и точности.

Фильтрация токсичности

Для обеспечения безопасности и качества данных, каждый образец в наборе данных прошел проверку на токсичность. Использовались модели, такие как LLaVAGuard и Toxic-BERT, для выявления и классификации токсичного контента. Это позволило удалить 7 531 уникальное токсичное изображение и 892 токсичных заголовка, что значительно улучшило качество набора данных.

Архитектура модели Maya

Архитектура Maya была разработана на основе LLaVA и включает в себя:

Многоязычную языковую модель: Мы выбрали модель Aya-23, имеющую 8 миллиардов параметров и способную обрабатывать 23 языка.
Мультимодальный визуальный энкодер: Используется SigLIP, который поддерживает переменные размеры патчей и обеспечивает масштабируемые позиционные встраивания.

Предварительное обучение

Для выравнивания изображений и текста использовалась матрица проекции, которая приближает визуальные признаки к языковым. Процесс предварительного обучения проводился на GPU с использованием специальной конфигурации, что позволило достичь низкой потери на этапе обучения.

Тонкая настройка

Тонкая настройка модели Maya проводилась с использованием набора данных PALO, что позволило улучшить производительность модели на различных языках. Исследования показали, что полная тонкая настройка без использования методов адаптации, таких как LoRA, обеспечивает лучшие результаты.

Результаты и обсуждение

Maya была протестирована на многоязычном наборе данных PALO и показала хорошие результаты по сравнению с другими моделями того же размера. В частности, Maya превзошла PALO-7B по пяти языкам и продемонстрировала сопоставимую производительность с PALO-13B.

Сравнение с другими моделями

При сравнении ответов Maya с ответами LLaVA-7B и GPT-4, было замечено, что Maya демонстрирует схожесть в понимании визуального контента, хотя и не всегда предоставляет столь же детализированные ответы, как GPT-4. Например, в задаче визуального вопроса о бренде Maya и LLaVA-7B оба дали правильный ответ, в то время как GPT-4 представил более подробную информацию о контексте.

Влияние фильтрации токсичности

При сравнении результатов Maya и Maya-Toxicity-Free было установлено, что удаление токсичного контента не оказало значительного влияния на общую производительность модели для большинства задач. Однако в некоторых случаях, таких как сложные задачи рассуждения, наличие разнообразного контента, возможно, способствовало лучшему пониманию.

Заключение

Maya представляет собой значительный шаг в направлении создания многоязычных мультимодальных моделей, способных работать с низко-ресурсными языками и учитывать культурные контексты. Проект направлен на обеспечение безопасного развертывания и высококачественного генерирования контента на различных языках и в разных регионах. В будущем планируется расширение набора данных для включения дополнительных языков и улучшение точности перевода, что позволит повысить эффективность и адаптивность модели.

Статья на arxiv Оригинал pdf models language data

Ай Дайджест