Свежая выжимка ml и AI статей - каждый день
С развитием технологий искусственного интеллекта, особенно в области обработки естественного языка и компьютерного зрения, модели, которые могут работать с визуальными и текстовыми данными одновременно, становятся всё более популярными. Эти модели, известные как Vision-Language Models (VLMs), позволяют компьютерам понимать и интерпретировать визуальную информацию на основе текстовых подсказок. Однако большинство современных VLMs сосредоточены на высокоресурсных языках, что создает значительные пробелы в их способности обрабатывать низко-ресурсные языки и учитывать культурные контексты.
В этой статье рассматривается Maya, новая открытая многоязычная мультимодальная модель, которая направлена на решение этих проблем, обеспечивая поддержку восьми языков и акцентируя внимание на качестве данных и культурной чувствительности.
Несмотря на значительные достижения в разработке больших языковых моделей (LLMs) и VLMs, текущие модели сталкиваются с несколькими проблемами:
Ограниченная поддержка языков: Большинство существующих VLMs обучаются на данных, доступных в высокоресурсных языках, таких как английский, что приводит к недостаточной производительности на низко-ресурсных языках.
Культурные контексты: Модели часто не способны адекватно учитывать культурные нюансы и контексты, что может привести к неправильным интерпретациям визуальной информации.
Токсичность данных: Существующие наборы данных для обучения часто содержат токсичный и культурно нечувствительный контент, что может усугублять предвзятости и стереотипы.
Maya была разработана с целью преодоления указанных выше проблем. Основные цели проекта включают:
Для создания набора данных, подходящего для обучения Maya, была разработана новая методология, которая включает в себя:
Для обеспечения безопасности и качества данных, каждый образец в наборе данных прошел проверку на токсичность. Использовались модели, такие как LLaVAGuard и Toxic-BERT, для выявления и классификации токсичного контента. Это позволило удалить 7 531 уникальное токсичное изображение и 892 токсичных заголовка, что значительно улучшило качество набора данных.
Архитектура Maya была разработана на основе LLaVA и включает в себя:
Для выравнивания изображений и текста использовалась матрица проекции, которая приближает визуальные признаки к языковым. Процесс предварительного обучения проводился на GPU с использованием специальной конфигурации, что позволило достичь низкой потери на этапе обучения.
Тонкая настройка модели Maya проводилась с использованием набора данных PALO, что позволило улучшить производительность модели на различных языках. Исследования показали, что полная тонкая настройка без использования методов адаптации, таких как LoRA, обеспечивает лучшие результаты.
Maya была протестирована на многоязычном наборе данных PALO и показала хорошие результаты по сравнению с другими моделями того же размера. В частности, Maya превзошла PALO-7B по пяти языкам и продемонстрировала сопоставимую производительность с PALO-13B.
При сравнении ответов Maya с ответами LLaVA-7B и GPT-4, было замечено, что Maya демонстрирует схожесть в понимании визуального контента, хотя и не всегда предоставляет столь же детализированные ответы, как GPT-4. Например, в задаче визуального вопроса о бренде Maya и LLaVA-7B оба дали правильный ответ, в то время как GPT-4 представил более подробную информацию о контексте.
При сравнении результатов Maya и Maya-Toxicity-Free было установлено, что удаление токсичного контента не оказало значительного влияния на общую производительность модели для большинства задач. Однако в некоторых случаях, таких как сложные задачи рассуждения, наличие разнообразного контента, возможно, способствовало лучшему пониманию.
Maya представляет собой значительный шаг в направлении создания многоязычных мультимодальных моделей, способных работать с низко-ресурсными языками и учитывать культурные контексты. Проект направлен на обеспечение безопасного развертывания и высококачественного генерирования контента на различных языках и в разных регионах. В будущем планируется расширение набора данных для включения дополнительных языков и улучшение точности перевода, что позволит повысить эффективность и адаптивность модели.