Ай Дайджест - категория pretraining

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

2024-12-16multimodal models understanding

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

2024-12-10multilingual language pretraining

Moto: Латентные токены движения как связующий язык для манипуляции роботами

Недавние разработки в области больших языковых моделей, предобученных на обширных корпусах, продемонстрировали значительные успехи в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время была ограничена высокой стоимостью данными с метками действий. Мы задаемся вопросом: учитывая обилие видео данных, содержащих знания, связанные с взаимодействием и доступных в качестве богатого "корпуса", можно ли эффективно применить аналогичный подход генеративного предобучения для улучшения обучения роботов? Ключевая задача заключается в том, чтобы определить эффективное представление для авторегрессионного предобучения, которое выгодно для задач манипуляции роботами. Вдохновленные тем, как люди осваивают новые навыки, наблюдая за динамическими окружениями, мы предлагаем, что эффективное обучение роботов должно подчеркивать знание, связанное с движением, которое тесно связано с низкоуровневыми действиями и является аппаратно-независимым, что облегчает перенос изученных движений на реальные действия робота. Для этой цели мы представляем Moto, который преобразует видеоконтент в скрытые последовательности токенов движения с помощью Латентного Токенизатора Движения, изучая мостовой "язык" движения из видео ненаблюдаемым образом. Мы предобучаем Moto-GPT через авторегрессию токенов движения, позволяя ему захватывать разнообразные визуальные знания о движении. После предобучения Moto-GPT демонстрирует многообещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траекторий через вероятность вывода. Для переноса усвоенных предварительных знаний о движении на реальные действия робота мы реализуем стратегию совместной донастройки, которая бесшовно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT демонстрирует превосходную устойчивость и эффективность на бенчмарках манипуляции роботами, подчеркивая его эффективность в переносе знаний с видеоданных на последующие задачи визуальной манипуляции.

2024-12-09pretraining autoregession models

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

2024-12-06training vision language

Осторожные оптимизаторы: Улучшение обучения одной строкой кода

AdamW долгое время был стандартным оптимизатором для предобучения трансформеров. Многие годы наше сообщество искало более быстрые и стабильные оптимизаторы, при этом стремясь к исключительно положительным результатам. В этой работе мы предлагаем однострочное изменение в Pytorch для любого оптимизатора на основе импульса, который мы переименовали в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонову функцию Adam и не нарушает гарантии сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое новое семейство оптимизаторов. Среди них мы выбрали самый простой для эмпирических экспериментов, показав ускорение предобучения Llama и MAE до 1,47 раза. Код доступен по адресу https://github.com/kyleliang919/C-Optim.

2024-11-26optimizer pretraining speed-up

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

2024-11-18model pretraining tokens

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

2024-11-08flops attention transformer

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

2024-11-04transformer pretraining masked

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.

2024-11-01benchmark pretraining transfer