Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "training"

VidTok: Современный видеотокенизатор для генерации и понимания видео

Кодирование видеоконтента в компактные латентные токены стало фундаментальным шагом в генерации и понимании видео, что обусловлено необходимостью устранения присущей избыточности в представлениях на уровне пикселей. В результате растет спрос на высокоэффективные, открытые видео-токенизаторы по мере того, как исследования, ориентированные на видео, приобретают популярность. Мы представляем VidTok, универсальный видео токенизатор, который демонстрирует передовые показатели как в непрерывной, так и в дискретной токенизации. VidTok включает в себя несколько ключевых усовершенствований по сравнению с существующими подходами: 1) архитектура модели, такая как свертки и модули вверх/вниз; 2) для устранения нестабильности обучения и коллапса кодовой книги, обычно связанных с традиционной векторной кватизацией (VQ), мы интегрируем конечную скалярную кватизацию (FSQ) в дискретную видео токенизацию; 3) улучшенные стратегии обучения, включая двухступенчатый процесс обучения и использование сниженных частот кадров. Интегрируя эти усовершенствования, VidTok достигает значительных улучшений по сравнению с существующими методами, демонстрируя превосходную производительность по множеству метрик, включая PSNR, SSIM, LPIPS и FVD, в стандартизированных условиях оценки.

Графические пользовательские интерфейсы (GUI) и их агенты: Обзор современных исследований

Графические интерфейсы пользователей (GUI) на основе крупных базовых моделей стали трансформационным подходом для автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя человеческие действия, такие как щелчки мышью, набор текста и навигация по визуальным элементам на различных платформах. Учитывая растущий интерес и фундаментальную важность агентов GUI, мы предоставляем всеобъемлющий обзор, который классифицирует их контрольные точки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая описывает их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выделяем важные открытые вызовы и обсуждаем ключевые направления будущего. Наконец, эта работа служит основой для практиков и исследователей, чтобы получить интуитивное понимание текущего прогресса, техник, контрольных точек и критических открытых проблем, которые необходимо решить.

AnySat: Модель наблюдения за Землёй для любых разрешений, масштабов и модальностей

Геопространственные модели должны адаптироваться к разнообразию данных дистанционного зондирования Земли с точки зрения разрешений, масштабов и модальностей. Однако существующие подходы ожидают фиксированных входных конфигураций, что ограничивает их практическое применение. Мы предлагаем AnySat, мультимодель, основанную на архитектуре совместного встраивания предсказания (JEPA) и разрешающем пространственном кодере, что позволяет нам обучать одну модель на высокогетерогенных данных в самонаправленном режиме. Чтобы продемонстрировать преимущества этого унифицированного подхода, мы подготовили GeoPlex, сборник из 5 мультимодальных наборов данных с различными характеристиками и 11 различными датчиками. Затем мы одновременно обучаем одну мощную модель на этих разнообразных наборах данных. После донастройки мы получаем лучшие или близкие к современным достижениям результаты на наборах данных GeoPlex и 4 дополнительных для 5 задач мониторинга окружающей среды: картирование земельного покрова, идентификация видов деревьев, классификация типов культур, обнаружение изменений и сегментация наводнений. Код и модели доступны по адресу https://github.com/gastruc/AnySat.

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

Wonderland: Навигация по 3D-сценам из одного изображения

Эта работа касается сложного вопроса: как мы можем эффективно создавать высококачественные, масштабные 3D-сцены из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость в данных с нескольких точек зрения, продолжительная оптимизация для каждой сцены, низкое визуальное качество фонов и искаженные реконструкции в не видимых областях. Мы предлагаем новую схему, чтобы преодолеть эти ограничения. В частности, мы представляем масштабную модель реконструкции, которая использует латенты из модели диффузии видео для предсказания 3D-Гауссовских разбросов для сцен в прямом направлении. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с нескольких точек зрения, сохраняя при этом 3D-последовательность. Мы обучаем модель 3D-реконструкции работать в пространстве видео-латентов с помощью прогрессивной стратегии обучения, что позволяет эффективно генерировать высококачественные, масштабные и универсальные 3D-сцены. Обширные оценки на различных наборах данных демонстрируют, что наша модель значительно превосходит существующие методы генерации 3D-сцен с одного вида, особенно с изображениями из другой области. Впервые мы демонстрируем, что модель 3D-реконструкции может быть эффективно построена на основе латентного пространства модели диффузии для реализации эффективной генерации 3D-сцен.

SepLLM: Ускорение больших языковых моделей за счет сжатия сегментов в разделители

Большие Языковые Модели (LLMs) показали исключительные результаты в различных задачах обработки естественного языка. Однако их значительные размеры создают серьезные проблемы, особенно в отношении вычислительных затрат и скорости вывода, из-за их квадратичной сложности. В этой работе мы идентифицировали ключевую закономерность: некоторые, на первый взгляд, бессмысленные специальные токены (т.е. разделители) непропорционально влияют на оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение предполагает, что информация сегментов между этими токенами-разделителями может быть эффективно сжата в сами токены-разделители без значительных потерь информации. Руководствуясь этой идеей, мы представляем SepLLM, многофункциональную платформу, которая ускоряет вывод за счет компрессии этих сегментов и устранения избыточных токенов. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в условиях без обучения, обучения с нуля и послевыучивания демонстрируют эффективность SepLLM. Примечательно, что, используя архитектуру Llama-3-8B, SepLLM достигает более чем 50% сокращения в кэше KV на контрольном устройстве GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в режимах потоковой передачи SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, одновременно поддерживая стабильные возможности языкового моделирования.

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

Защита от подражания с использованием персонализированных диффузионных моделей

Недавние достижения в моделях диффузии революционизируют генерацию изображений, но представляют собой риски неправильного использования, такие как воспроизведение художественных произведений или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности с балансировкой эффективности защиты, невидимости и задержки, что ограничивает практическое применение. Мы представляем предварительное обучение с помехами для снижения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации ухудшения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает надежность и невидимость. Эксперименты показывают сопоставимую эффективность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по адресу https://webtoon.github.io/impasto

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

Большие Модели Действий: От Концепции к Реализации

По мере того как ИИ продолжает развиваться, возрастает потребность в системах, которые выходят за рамки языковой помощи и переходят к интеллектуальным агентам, способным выполнять действия в реальном мире. Эта эволюция требует перехода от традиционных больших языковых моделей (LLM), которые отлично справляются с генерацией текстовых ответов, к большим моделям действий (LAM), разработанным для генерации и выполнения действий в динамических средах. Обеспеченные агентными системами, LAM имеют потенциал преобразовать ИИ из пассивного языкового понимания в активное выполнение задач, что отмечает значимый этап в прогрессе к искусственному общему интеллекту. В этой статье мы представляем обширную структуру для разработки LAM, предлагая систематический подход к их созданию, от замысла до развертывания. Мы начинаем с обзора LAM, подчеркивая их уникальные характеристики и обозначая их отличия от LLM. Используя основанного на операционной системе Windows агента в качестве примера, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию среды, основание и оценку. Этот обобщаемый рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем, определяя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного развертывания, подчеркивая вызовы и возможности, которые ждут впереди в реализации полного потенциала LAM в реальных приложениях. Код для процесса сбора данных, использованный в этой статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, а обширная документация доступна по адресу https://microsoft.github.io/UFO/dataflow/overview/.

llmagentai

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Мультимодальные большие языковые модели (МЛЛМ) достиглиrapid прогресса за последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (НУВП) — особенно со способностью точно описывать геометрические детали изображения. Эта способность жизненно важна для приложений в таких областях, как робототехника, анализ медицинских изображений и производство. В этой статье мы сначала представляем Геовосприятие, эталонный показатель, предназначенный для оценки способности МЛЛМ точно транскрибировать 2D геометрическую информацию из изображения. Используя этот эталон, мы демонстрируем ограничения ведущих МЛЛМ, а затем проводим всестороннее эмпирическое исследование, чтобы изучить стратегии улучшения их производительности по геометрическим задачам. Наши выводы подчеркивают преимущества некоторых архитектур моделей, техник обучения и стратегий данных, включая использование синтетических данных высокого качества и многоуровневое обучение с учебным планом данных. Особенно мы обнаруживаем, что учебный план данных позволяет моделям изучать сложные задачи понимания геометрии, которые они не могут усвоить с нуля. Основываясь на этих выводах, мы разрабатываем Евклид, семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Евклид обучался исключительно на синтетических мультимодальных данных, он демонстрирует сильные способности к обобщению на новых геометрических формах. Например, Евклид превосходит лучшую закрытую модель Gemini-1.5-Pro на 58.56% по определенным задачам эталона Геовосприятия и на 10.65% в среднем по всем задачам.

Phi-4: Модель языка нового поколения

Мы представляем phi-4, языковую модель с 14 миллиардами параметров, разработанную с рецептом обучения, который основное внимание уделяет качеству данных. В отличие от большинства языковых моделей, где предобучение в основном основано на органических источниках данных, таких как веб-контент или код, phi-4 стратегически включает синтетические данные на протяжении всего процесса обучения. В то время как предыдущие модели из семейства Phi в основном дистиллируют возможности модели-учителя (в частности, GPT-4), phi-4 существенно превосходит свою модель-учитель по возможностям QA, сосредоточенным на STEM, что свидетельствует о том, что наши методы генерации данных и постобучения выходят за пределы дистилляции. Несмотря на минимальные изменения в архитектуре phi-3, phi-4 демонстрирует отличные результаты по сравнению со своим размером - особенно на эталонах, ориентированных на рассуждение - благодаря улучшенным данным, учебной программе и инновациям в схеме постобучения.

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (NFs) являются моделями, основанными на вероятности, для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в оценке плотности, так и в задачах генеративного моделирования, но в последние годы получили относительно мало внимания. В этой работе мы демонстрируем, что NFs более мощные, чем считалось ранее. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант автогрессивных потоков с маскированием (MAFs), основанный на Transformer: он состоит из стека автогрессивных трансформерных блоков на изображениях, чередующих направление автогрессии между слоями. TarFlow легко обучать от начала до конца и он способен напрямую моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества образцов: увеличение гауссовского шума во время обучения, посттренировочную процедуру денойзинга и эффективный метод управления как для условий класса, так и для безусловных настроек. Совместив это, TarFlow устанавливает новые современные результаты в оценке вероятности для изображений, опережая предыдущие лучшие методы на значительную величину, и генерирует образцы с качеством и разнообразием, сопоставимыми с диффузионными моделями, впервые с помощью самостоятельной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников

Графические интерфейсы пользователя (GUI) имеют большой потенциал для автоматизации сложных задач в различных цифровых средах, от веб-приложений до настольного программного обеспечения. Однако развитие таких агентов затрудняется отсутствием качественных данных о многоступенчатых траекториях, необходимых для эффективного обучения. Существующие подходы полагаются на дорогую и трудоемкую аннотацию людьми, что делает их неустойчивыми в больших масштабах. Для решения этой проблемы мы предлагаем AgentTrek, масштабируемый поток данных синтеза, который генерирует качественные траектории GUI-агентов, используя веб-уроки. Наш метод автоматически собирает тексты, подобные учебникам, из интернета, трансформирует их в цели задач с пошаговыми инструкциями и использует агента модели визуального языка для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение GUI-агентов с помощью этих синтезированных траекторий значительно улучшает их основание и планирование по сравнению с существующими моделями. Более того, наш подход более экономически эффективен по сравнению с традиционными методами аннотации людьми. Эта работа подчеркивает потенциал управляемого воспроизведения с помощью веб-уроков как жизнеспособной стратегии для обучения GUI-агентов в больших масштабах, открывая путь к более способным и автономным цифровым агентам.

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

Усовершенствование навигации с помощью языка: Самообучающаяся система данных

Создание высококачественных данных для обучения надежных агентов с языковыми инструкциями является давним вызовом в области эмбодированной ИИ. В этой статье мы представляем Самоочищающуюся Данные Летучая Мышь (SRDF), которая генерирует высококачественные и масштабные пары навигационных инструкций и траекторий, итеративно уточняя пул данных через сотрудничество между двумя моделями: генератором инструкций и навигатором, без каких-либо аннотаций человека в процессе. В частности, SRDF начинает с использования базового генератора для создания начального пула данных для обучения базового навигатора, после чего обученный навигатор применяется для фильтрации пула данных. Это приводит к более точным данным для обучения лучшего генератора, который, в свою очередь, может производить высококачественные данные для обучения навигатора следующего этапа. Такая летучая мышь устанавливает процесс самоочищения данных, обеспечивая непрерывно улучшенный и очень эффективный набор данных для масштабного обучения навигации на основе языка. Наши эксперименты показывают, что после нескольких циклов работы летучей мыши навигатор повышает границу производительности с 70% до 78% SPL на классическом тестовом наборе R2R, впервые превышая производительность человека (76%). Между тем, этот процесс приводит к созданию превосходного генератора, о чем свидетельствует увеличение SPICE с 23.5 до 26.2, что лучше всех предыдущих методов генерации инструкций VLN. Наконец, мы демонстрируем масштабируемость нашего метода через увеличение разнообразия среды и инструкций, а также способность нашего предварительно обученного навигатора обобщать на различные downstream навигационные задачи, значительно превышая методы передового опыта во всех случаях.

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

Полностью открытый исходный код Moxin-LLM: Технический отчет

Недавно большие языковые модели (LLM) претерпели значительную трансформацию, отмеченную быстрым ростом как их популярности, так и возможностей. Ведущими в этой эволюции являются проприетарные LLM, такие как GPT-4 и GPT-01, которые привлекли широкое внимание в сообществе ИИ благодаря своим выдающимся показателям и универсальности. Одновременно открытые LLM, такие как LLaMA и Mistral, внесли большой вклад в постоянно растущую популярность LLM благодаря легкости настройки и развертывания моделей в различных приложениях. Хотя открытые LLM предоставляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения по поводу прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют основным требованиям прозрачности, удерживая важные компоненты, такие как код и данные для обучения, а некоторые используют ограничительные лицензии, утверждая, что они "открытые", что может препятствовать дальнейшим инновациям в области LLM. Чтобы смягчить эту проблему, мы представляем Moxin 7B, полностью открытый LLM, разработанный в соответствии с рамками открытости моделей (MOF), системой ранговой классификации, которая оценивает модели ИИ на основе полноты модели и открытости, соблюдая принципы открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря комплексному выпуску кода и конфигураций дообучения, наборов данных для обучения и тонкой настройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель демонстрирует превосходные результаты в нулевом тестировании по сравнению с популярными 7B моделями и показывает конкурентные результаты в тестировании с малым количеством примеров.

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

Chimera: Улучшение универсальной модели с помощью специализированных экспертов

Недавние достижения в области крупных мультимодальных моделей (LMM) подчеркивают важность масштабирования за счет увеличения объема парных данных изображений и текста, что приводит к впечатляющим результатам в общих задачах. Несмотря на их эффективность в широких приложениях, общие модели в основном обучаются на датасетах веб-масштаба, доминирующих естественными изображениями, что приводит к жертве специализированными возможностями для задач, требующих обширных предварительных знаний в конкретной области. Более того, прямое интегрирование экспертных моделей, адаптированных для определенных областей, является сложной задачей из-за разрыва в представлении и дисбаланса оптимизации между общей моделью и экспертами. Чтобы решить эти проблемы, мы представляем Chimera, масштабируемый и недорогой мультимодальный конвейер, разработанный для повышения способности существующих LMM с помощью экспертов из конкретных областей. В частности, мы разрабатываем прогрессивную стратегию обучения для интеграции функций из экспертных моделей в ввод общей мультимодальной модели. Чтобы решить дисбаланс оптимизации, вызванный хорошо согласованным общим визуальным кодировщиком, мы вводим новый механизм сотрудничества между общими и специализированными моделями (GSCM). Это приводит к универсальной модели, которая превосходит по всем параметрам в областях графиков, таблиц, математики и документов, достигая состояния искусства в задачах мультимодального рассуждения и извлечения визуального содержания, обе из которых являются сложными задачами для оценки существующих LMM.

STIV: Масштабируемая генерация видео с учетом текста и изображений

Сфера генерации видео сделала замечательные успехи, однако существует настоятельная необходимость в четком, систематическом рецепте, который может направлять разработку надежных и масштабируемых моделей. В этой работе мы представляем всестороннее исследование, которое систематически изучает взаимосвязь архитектур моделей, рецептов обучения и стратегий кураторства данных, завершаясь простым и масштабируемым методом генерации видео, основанным на текстовых изображениях, названным STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадров, одновременно включая текстовое условие с помощью совместного классификатора на основе изображения и текста без управления. Этот дизайн позволяет STIV одновременно выполнять задачи генерации видео из текста (T2V) и генерации видео из текста и изображений (TI2V). Кроме того, STIV легко расширяется для различных приложений, таких как предсказание видео, интерполяция кадров, многослойная генерация и генерация длинных видео и т.д. Благодаря комплексным абляционным исследованиям T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на его простую структуру. Модель с 8.7B параметрами с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Модель такого же размера также достигает рекордного результата 90.1 на задаче VBench I2V с разрешением 512. Предлагая прозрачный и расширяемый рецепт для создания современных моделей генерации видео, мы стремимся поддержать будущие исследования и ускорить прогресс к более универсальным и надежным решениям в области генерации видео.

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

LiFT: Использование человеческой обратной связи для выравнивания моделей текст-видео

Недавние достижения в генеративных моделях преобразования текста в видео (T2V) продемонстрировали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видео с человеческими предпочтениями (например, точного отражения текстовых описаний), что особенно трудно решить, поскольку человеческие предпочтения по своей природе субъективны и сложно формализуемы как объективные функции. Поэтому в статье предлагается метод тонкой настройки LiFT, использующий человеческую обратную связь для согласования моделей T2V. Конкретно, мы сначала создаем набор данных аннотации человеческой оценки, LiFT-HRA, состоящий из примерно 10 000 аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческой оценки, измеряя согласование между данными видео и ожиданиями человека. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V, максимизируя взвешенную по вознаграждению вероятность. В качестве примера мы применяем наш конвейер к CogVideoX-2B, показывая, что тонко настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал человеческой обратной связи в улучшении согласования и качества синтезированных видео.

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого типа, таких как текст-в-изображение, текст-в-аудио и синтез аудио-в-изображение. OmniFlow продвигает преобразование откорректированного потока (RF), использующееся в моделях текст-в-изображение, для обработки совместного распределения нескольких модальностей. Она превосходит предыдущие модели любого типа по широкому диапазону задач, таких как синтез текст-в-изображение и текст-в-аудио. Наша работа предлагает три ключевых вклада: во-первых, мы расширяем RF до многомодальной настройки и вводим новый механизм управления, позволяющий пользователям гибко контролировать выравнивание между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру MMDiT текста-в-изображение Stable Diffusion 3 и позволяет генерировать аудио и текст. Расширенные модули могут быть эффективно предобучены индивидуально и объединены с обычным текст-в-изображение MMDiT для дообучения. Наконец, мы проводим комплексное исследование по выбору дизайна трансформеров откорректированного потока для генерации аудио и текста в крупном масштабе, предоставляя ценные идеи по оптимизации производительности для различных модальностей. Код будет доступен на https://github.com/jacklishufan/OmniFlows.

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

Дискриминативная дообучаемость больших моделях зрения и языка (LVLM)

Контрастно обученные модели зрения и языка (VLM), такие как CLIP, стали де-факто подходом для обучения предствления зрения и языка с учетом различий. Однако у этих моделей ограниченное понимание языка, которое часто проявляется в поведении «мешка слов». В то же время крупные модели зрения и языка (LVLM), которые комбинируют кодировщики зрения с большими языковыми моделями (LLM), показали свою способность к детальному рассуждению на основе зрения и языка, но их авторегрессивная природа делает их менее подходящими для дискриминационных задач. В этой работе мы предлагаем комбинировать «лучшее из обоих миров»: новый подход к обучению для дискриминационной тонкой настройки LVLM, который обеспечивает сильные способности к различению и композиции. В основном, наш подход преобразует генеративную LVLM в дискриминационную, разблокируя ее возможности для мощного различения изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную обучающую/оптимизационную структуру, которая использует пары изображений и текста переменной длины и тонкости для обучения модели с учетом контрастной потери и потерь предсказания следующего токена. Это сопровождается абляционными исследованиями, которые обосновывают необходимость компонентов нашей структуры. (2) Эффективный метод адаптации параметров с использованием комбинации мягкого запроса и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями подобными CLIP схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные улучшения в композиционности.

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

p-MoD: Эффективные Мультимодальные Большие Языковые Модели

Несмотря на выдающиеся результаты многомодальных больших языковых моделей (MLLM) в различных задачах, значительные затраты на обучение и вывод мешают их развитию. Большая часть вычислений связана с огромным объемом визуальных токенов, обрабатываемых декодером трансформера. В этой статье мы предлагаем создавать эффективные MLLM, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визуальные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLM не является тривиальной задачей. Чтобы справиться с проблемами стабильности обучения и вывода, а также ограниченными данными для обучения, мы адаптируем модуль MoD с помощью двух новых разработок: тангентально-контролируемой нормализации весов (TanhNorm) и симметричного переобучения токенов (STRing). Более того, мы наблюдаем, что визуальные токены проявляют более высокую избыточность в более глубоких слоях, и, следовательно, разрабатываем стратегию прогрессивного уменьшения соотношения (PRD), которая постепенно сокращает коэффициент удержания токенов слой за слоем, используя смещенный косинусный график. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно увеличивая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями по 14 контрольным точкам. Наша модель, p-MoD, сравнивается или даже превосходит производительность базовых моделей, при этом затрачивая всего 55,6% TFLOPs и 53,8% хранения кэша KV во время вывода и 77,7% GPU-часов во время обучения.

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является обновлением открытой модели языка и зрения (VLM) PaliGemma, основанной на семействе языковых моделей Gemma 2. Мы комбинируем визуальный кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы обеспечить их широкими знаниями для передачи через дообучение. В результате получается семья базовых моделей, охватывающая разные размеры моделей и разрешения, что позволяет нам исследовать факторы, влияющие на эффективность передачи (такие как скорость обучения), и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и разнообразие задач передачи за пределами PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблицы, распознавание молекулярной структуры, распознавание музыкальных партитур, а также длительное детализированное аннотирование и генерацию рентгеновских отчетов, по которым PaliGemma 2 достигает результатов на уровне передовых технологий.

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.

LUMINET: Слияние Латентных Интринсиков и Моделей Диффузии для Переноса Освещения в Внутренних Сценах

Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и латентные внутренние представления для эффективной передачи освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует пересвеченную версию исходной сцены, которая захватывает освещение цели. Наш подход делает два ключевых вклада: стратегию кураторства данных на основе модели повторного освещения StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как латентные внутренние свойства исходного изображения, так и латентные экстраинтерные свойства целевого изображения. Мы дополнительно улучшаем передачу освещения с помощью обученного адаптера (MLP), который вводит латентные экстраинтерные свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает латентные представления из двух разных изображений - сохраняя геометрию и альбедо из источника, в то время как передает характеристики освещения из цели. Эксперименты показывают, что наш метод успешно передает сложные феномены освещения, включая бликовые отражения и непрямое освещение, по сценам с различной пространственной компоновкой и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.

Video-3D LLM: Понимание 3D-сцен с помощью видео-репрезентаций

Быстрое развитие многомодальных больших языковых моделей (MLLM) значительно повлияло на различные многомодальные задачи. Однако эти модели сталкиваются с трудностями в задачах, которые требуют пространственного понимания в 3D-средах. Были предприняты усилия по улучшению MLLM, такие как внедрение признаков облака точек, однако остается значительный разрыв между изученными моделями представлениями и врожденной сложностью 3D-сцен. Это несоответствие в значительной степени обусловлено обучением MLLM на преимущественно 2D-данных, что ограничивает их эффективность в понимании 3D-пространств. Чтобы решить эту проблему, в данной работе мы предлагаем новую универсальную модель, т.е. Video-3D LLM, для понимания 3D-сцен. Рассматривая 3D-сцены как динамические видео и внедряя 3D-кодирование позиций в эти представления, наша Video-3D LLM более точно согласовывает представления видео с реальными пространственными контекстами. Кроме того, мы реализовали технику максимального охвата выборки для оптимизации баланса между вычислительными затратами и эффективностью производительности. Обширные эксперименты показывают, что наша модель достигает передового уровня производительности на нескольких эталонах понимания 3D-сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.

NitroFusion: Высококачественная одноступенчатая диффузия через динамическое противостоящее обучение

Мы представляем NitroFusion, принципиально новый подход к одномоментной диффузии, который достигает высокого качества генерации с помощью динамической антагонистической структуры. Хотя одномоментные методы предлагают значительные преимущества в скорости, они, как правило, страдают от ухудшения качества по сравнению с многомоментными аналогами. Точно так же, как панель критиков искусства предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход сохраняет большой пул специализированных дискриминаторов, которые вместе направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в определенных аспектах качества на разных уровнях шума, предоставляя разнообразную обратную связь, которая позволяет добиться высококачественной одномоментной генерации. Наша структура сочетает: (i) динамический пул дискриминаторов со специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов, и (iii) глобально-локальные дискриминаторы для оценки качества на различных масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникально поддерживает гибкое развертывание через усовершенствование снизу-вверх, позволяя пользователям динамически выбирать между 1-4 шагами денойзинга с использованием одной и той же модели для прямого компромисса между качеством и скоростью. Через комплексные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одномоментные методы по множеству оценочных метрик, особенно выделяясь в сохранении тонких деталей и глобальной согласованности.

VideoGen-of-Thought: Коллаборативная структура для многослойной генерации видео

Текущие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многосъемочных, аналогичных фильмам видео. Существующие модели, обученные на данных большого масштаба с использованием мощных вычислительных ресурсов, неудивительно, что оказываются недостаточными для поддержания логического повествования и визуальной согласованности между несколькими кадрами связного сценария, так как они часто обучаются с целью одного кадра. С этой целью мы предлагаем VideoGen-of-Thought (VGoT), совместную архитектуру без обучения, разработанную специально для многосъемочной генерации видео. VGoT разработан с тремя целями: Генерация многосъемочного видео: мы делим процесс генерации видео на структурированную, модульную последовательность, включающую (1) Генерацию сценария, которая переводит краткую историю в детализированные подсказки для каждого кадра; (2) Генерацию ключевых кадров, ответственную за создание визуально согласованных ключевых кадров, верных изображению персонажей; и (3) Генерацию видео на уровне кадра, которая преобразует информацию из сценариев и ключевых кадров в кадры; (4) Механизм сглаживания, который обеспечивает согласованный многосъемочный результат. Разумный дизайн повествования: вдохновленный сценарным письмом для кино, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую согласованность, развитие персонажей и поток повествования на протяжении всего видео. Согласованность между кадрами: мы обеспечиваем временную и идентичностную согласованность, используя эмбеддинги, сохраняющие идентичность (IP), между кадрами, которые автоматически создаются из повествования. Кроме того, мы интегрируем механизм сглаживания между кадрами, который включает границу сброса, эффективно объединяющую латентные признаки соседних кадров, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты демонстрируют, что VGoT превосходит существующие методы генерации видео в производстве высококачественных, согласованных многосъемочных видео.

Награды процесса без меток процесса: новые горизонты в обучении моделей вознаграждения

В отличие от моделей наград результатов (ORM), которые оценивают все ответы, модель награды процесса (PRM) оценивает аргументацию шаг за шагом, предоставляя более плотные и детализированные вознаграждения. Однако обучение PRM требует меток, аннотированных на каждом промежуточном этапе, что создает значительные проблемы как для ручного, так и для автоматического сбора данных. Эта статья нацелена на решение этой проблемы. Как теоретически, так и эмпирически мы показываем, что неявный PRM может быть получен без дополнительных затрат, просто обучая ORM на более дешевых метках уровня ответа. Единственное предположение заключается в параметризации результата награды как логарифма отношения правдоподобия моделей политики и эталона, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы реализуем наши неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наш неявный PRM превосходит сильную базовую линию на основе MCTS 'а-ля Math-Shepherd, используя менее 1/38 данных для обучения. Его производительность можно дополнительно улучшить с помощью голосования большинством. Мы также выяснили, что увеличение масштабов инструкций и ответов приносит выгоду нашему неявному PRM, при этом последнее дает больший прирост. В частности, мы обнаружили, что наш неявный PRM, когда он реализован с потерей кросс-энтропии (CE), более эффективен с точки зрения данных и может продолжать улучшать модели генерации, даже когда обучен только с одним ответом на инструкцию, что привносит крайний дефицит и дисбаланс данных. Кроме того, инструкции должны быть актуальны для последующих задач, в то время как разнообразие ответов не приносит выгоды. Удивительно, но обучение на дополнительных метках шагов Math-Shepherd не приносит дальнейших улучшений нашему неявному PRM, обученному только на данных результата. Мы надеемся, что наша работа побудит пересмотреть подходы к обучению PRM и поможет сделать обучение PRM более доступным.

MALT: Улучшение рассуждений с помощью обучения многоагентных LLM

Включение эффективного сотрудничества между LLM является важным шагом к разработке автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы с единой моделью, где люди критикуют и уточняют их результаты, потенциал совместно обученных коллаборативных моделей остается в значительной степени неизученным. Несмотря на многообещающие результаты в многоагентной коммуникации и дебатах, мало что было сделано для обучения моделей работать вместе над задачами. В этой статье мы представляем первый шаг к "Обучению многоагентных LLM" (MALT) по решению задач на рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, которым назначены специализированные роли: генератор, проверяющий и модель уточнения, которые итеративно решают задачи. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию распределения кредитов, основанную на вознаграждениях, ориентированных на общий результат. Это позволяет нашей настройке после обучения использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на примерах MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительных улучшений в 14,14%, 7,12% и 9,40% соответственно по сравнению с той же базовой моделью. Это демонстрирует ранний прогресс в многоагентных кооперативных способностях для выполнения математических задач и вопросов общего смысла. В более общем плане, наша работа предоставляет конкретное направление для исследований в области подходов к обучению многоагентных LLM.

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

O1-CODER: Новый Подход к Кодированию с Использованием RL и MCTS

Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 OpenAI с акцентом на задачи кодирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло дерево решений (MCTS) для улучшения способностей мышления модели системы-2. В рамках включает обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, используя MCTS для генерации данных кода с процессами рассуждения, и итеративную донастройку модели политики, чтобы первоначально создавать псевдокод, за которым следует генерация полного кода. Отчет также рассматривает возможности и вызовы в развертывании моделей, подобных o1, в реальных приложениях, предлагая переход на парадигму системы-2 и подчеркивая необходимость обновления состояния среды. Обновленный прогресс модели и экспериментальные результаты будут представлены в следующих версиях. Весь исходный код, курируемые наборы данных, а также полученные модели будут раскрыты на https://github.com/ADaM-BJTU/O1-CODER.

Open-Sora Plan: Новый Подход к Генерации Видео

Мы представляем проект Open-Sora Plan, проект с открытым исходным кодом, который стремится внести большую модель генерации для создания желаемых видео в высоком разрешении длительностью основываясь на различных входных данных пользователя. Наш проект состоит из нескольких компонентов для всего процесса генерации видео, включая вариационный автокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse, а также различные контроллеры условий. Более того, разработаны множество вспомогательных стратегий для эффективного обучения и вывода, и предложен многоуровневый конвейер обработки данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш проект Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт смогут вдохновить сообщество исследователей генерации видео. Все наши коды и веса модели доступны для публики по адресу https://github.com/PKU-YuanGroup/Open-Sora-Plan.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

FAM Diffusion: Модели диффузии с модуляцией частоты и внимания для генерации изображений высокого разрешения

Модели диффузии хорошо справляются с генерацией изображений высокого качества. Однако они эффективны только при работе с разрешением, используемым во время обучения. Инференс при масштабированном разрешении приводит к повторяющимся паттернам и структурным искажениям. Переобучение на более высоких разрешениях быстро становится непрактичным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, весьма желательны. Предыдущие работы страдали от частых артефактов и часто вносили большие задержки. Мы предлагаем два простых модуля, которые вместе решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль внимания (AM), который улучшает согласованность локальных текстурных паттернов, проблема, в значительной степени игнорируемая в предыдущих работах. Наш метод, названный Fam диффузия, может бесшовно интегрироваться в любую латентную модель диффузии и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в борьбе со структурными и локальными артефактами, в то время как количественные результаты показывают передовые достижения. Кроме того, наш метод избегает избыточных трюков инференса для улучшенной согласованности, таких как основанная на патчах или прогрессивная генерация, что приводит к незначительным задержкам.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

Декуплированная оптимизация моментов: Новая парадигма для обучения крупных нейронных сетей

Обучение крупных нейронных сетей обычно требует обмена градиентами между акселераторами через специализированные высокоскоростные соединения. Опираясь на принципы обработки сигналов, такие как частотное разложение и сжатие энергии, мы демонстрируем, что синхронизация полных состояний оптимизатора и параметров модели в процессе обучения не является необходимой. Разделяя обновления момента и позволяя контролируемое расхождение в состояниях оптимизатора между акселераторами, мы достигаем улучшенной сходимости по сравнению с современными оптимизаторами. Мы представляем {De}coupled {Mo}mentum (DeMo), объединенный оптимизатор и алгоритм параллельной обработки данных, который снижает требования к межакселераторной связи на несколько порядков. Это позволяет обучать крупные нейронные сети даже при ограниченной пропускной способности сети и неоднородном оборудовании. Наш метод не зависит от топологии и архитектуры и поддерживает масштабируемое распределенное обучение с синхронизацией тактовых импульсов при незначительных затратах вычислительных ресурсов и памяти. Эмпирические результаты показывают, что модели, обученные с помощью DeMo, соответствуют или превосходят производительность эквивалентных моделей, обученных с помощью AdamW, устраняя необходимость в высокоскоростных соединениях при предварительном обучении крупномасштабных фундаментальных моделей. Открытая реализация на базе PyTorch опубликована на GitHub по адресу https://github.com/bloc97/DeMo.

Yi-Lightning: Новый Флагманский Модель Языка

Этот технический отчет представляет Yi-Lightning, нашу последнюю флагманскую модель большого языка (LLM). Она демонстрирует исключительную производительность, занимая 6-е место в общем зачете на Chatbot Arena, с особенно сильными результатами (2-е по 4-е места) в специализированных категориях, включая китайский, математику, программирование и сложные подсказки. Yi-Lightning использует улучшенную архитектуру Mixture-of-Experts (MoE), которая включает в себя передовую сегментацию экспертов и механизмы маршрутизации в сочетании с оптимизированными методами кэширования KV. Наш процесс разработки охватывает комплексное предварительное обучение, контрольное дообучение (SFT) и обучение с подкреплением на основе обратной связи от людей (RLHF), где мы разрабатываем целенаправленные стратегии для многоэтапного обучения, синтетического создания данных и моделирования наград. Более того, мы реализуем RAISE (Responsible AI Safety Engine), четырехкомпонентную структуру для решения проблем безопасности на этапах предварительного обучения, после обучения и обслуживания. Обладая нашей масштабируемой суперкомпьютерной инфраструктурой, все эти инновации существенно снижают затраты на обучение, развертывание и вывод результатов, при этом поддерживая высокие стандарты производительности. С дальнейшими оценками на общедоступных академических критериях, Yi-Lightning демонстрирует конкурентоспособные результаты по сравнению с топовыми LLM, в то время как мы наблюдаем значительное несоответствие между традиционными, статическими результатами бенчмарков и динамичными человеческими предпочтениями в реальном мире. Это наблюдение побуждает к критической переоценке полезности традиционных бенчмарков в руководстве по разработке более умных и мощных AI-систем для практических приложений. Yi-Lightning теперь доступен через нашу платформу разработчика на https://platform.lingyiwanwu.com.

Генерация видео с сохранением идентичности на основе текстовых описаний с использованием частотной декомпозиции

Создание видео с сохранением идентичности (IPT2V) стремится создавать высококачественные видео с последовательной человеческой идентичностью. Это важная задача в генерации видео, но она остается нерешенной проблемой для генеративных моделей. Эта статья продвигает техническую грань IPT2V в двух направлениях, которые не были разрешены в литературе: (1) Конвейер без настройки, без утомительной настройки случая за случаем, и (2) Эвристическая схема управления на основе DiT с учетом частот, сохраняющая идентичность. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность последовательной в созданном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где черты лица могут быть разложены на глобальные черты с низкой частотой и внутренние черты с высокой частотой. Во-первых, с точки зрения низкой частоты, мы вводим глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентном пространстве, создавая признаки, обогащенные информацией с низкой частотой. Эти признаки затем интегрируются в поверхностные слои сети, чтобы облегчить трудности обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты, мы разрабатываем локальный экстрактор лица, чтобы уловить детали с высокой частотой и внедрить их в блоки трансформеров, улучшая способность модели сохранять тонкие признаки. Мы предлагаем иерархическую стратегию обучения, чтобы использовать информацию о частоте для сохранения идентичности, трансформируя обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учетом частот предоставляет оптимальное решение для контроля моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

Мультимодальная генерация звуков для видео: концепция MultiFoley

Создание звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые существенно отличаются от реальных источников, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для звукового генерации под управлением видео, которая поддерживает мультимодальное управление с помощью текста, аудио и видео. Учитывая беззвучное видео и текстовый запрос, MultiFoley позволяет пользователям создавать чистые звуки (например, колеса скейтборда, вращающиеся без шума ветра) или более причудливые звуки (например, заставляя рычащий звук льва звучать как мяуканье кота). MultiFoley также позволяет пользователям выбирать аудио-ссылки из библиотек звуковых эффектов (SFX) или частичных видео для кондиционирования. Ключевым новшеством нашей модели является ее совместное обучение на интернет-видеодатасетах с низким качеством аудио и профессиональных записях SFX, что позволяет генерировать аудио высокого качества, полного диапазона (48kHz). Через автоматизированные оценки и исследования с участием человека мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при различных условных входах и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видеорезультатов: https://ificl.github.io/MultiFoley/

DreamCache: Легковесная и персонализированная генерация изображений без дообучения

Персонализированная генерация изображений требует моделей генерации текстов в изображения, которые захватывают основные характеристики объекта-референса, позволяя контролируемую генерацию в разных контекстах. Существующие методы сталкиваются с проблемами из-за сложных требований к обучению, высоких затрат на вывод, ограниченной гибкости или комбинации этих проблем. В этой статье мы представляем DreamCache, масштабируемый подход к эффективной и качественной персонализированной генерации изображений. Кэшируя небольшое количество характеристик изображений-референсов из подмножества слоев и одного временного шага предварительно обученного шумоподавляющего диффузора, DreamCache позволяет динамически модулировать характеристики сгенерированного изображения с помощью легких, обученных кондиционирующих адаптеров. DreamCache достигает современного уровня согласования изображений и текста, используя на порядок меньше дополнительных параметров и является как более вычислительно эффективным, так и универсальным, чем существующие модели.

ChatRex: Объединение восприятия и понимания в многомодальных больших языковых моделях

Перception и понимание — два столба компьютерного зрения. В то время как многомодальные большие языковые модели (MLLM) продемонстрировали замечательные возможности визуального понимания, им, возможно, недостает точных восприятий, например, модель Qwen2-VL только достигает 43,9% коэффициента полноты на наборе данных COCO, что ограничивает многие задачи, требующие сочетания восприятия и понимания. В этой работе мы стремимся сократить этот разрыв в восприятии как с точки зрения проектирования модели, так и разработки данных. Сначала мы представляем ChatRex, MLLM с раздельным дизайном восприятия. Вместо того чтобы позволить LLM непосредственно предсказывать координаты коробок, мы передаем выходные коробки из универсальной сети предложений в LLM, позволяя ему выводить соответствующие индексы коробок, представляющие его результаты обнаружения, превращая задачу регрессии в основанную на извлечении задачу, с которой LLM справляется более эффективно. С точки зрения данных мы создаем полностью автоматизированный движок данных и конструируем набор данных Rexverse-2M, который обладает несколькими градуировками, чтобы поддерживать совместное обучение восприятию и пониманию. После стандартного двухэтапного обучения ChatRex демонстрирует сильные возможности восприятия, сохраняя при этом производительность многомодального понимания. Сочетание этих двух возможностей одновременно открывает множество привлекательных приложений, демонстрируя взаимодополняющие роли восприятия и понимания в MLLM. Код доступен по адресу https://github.com/IDEA-Research/ChatRex.

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

Разработка графических интерфейсов пользователя (GUI) для помощников обещает значительные перспективы для повышения продуктивности рабочих процессов человека. Хотя большинство агентов основаны на языковых технологиях и используют закрытые API с богатой текстовой мета-информацией (например, HTML или дерево доступности), они проявляют ограничения в восприятии визуалов интерфейса так, как это делают люди, что подчеркивает необходимость в агентах, способных визуально воспринимать GUI. В данной работе мы разрабатываем модель видео-языковых действий в цифровом мире, называемую ShowUI, которая включает следующие инновации: (i) Выбор визуальных токенов, руководимый UI, для снижения вычислительных затрат путем формулирования скриншотов в виде связанного графа UI, адаптивно выявляя их избыточные отношения и используя их в качестве критериев для выбора токенов в блоках само-внимания; (ii) Потоковое смешивание видео, языка и действий, которое гибко объединяет разнообразные потребности в задачах GUI, позволяя эффективно управлять историей визуальных действий при навигации или сопоставлении последовательностей запросов-действий на каждый скриншот для повышения эффективности обучения; (iii) Создание малых, но качественных наборов данных с инструкциями для GUI путем тщательного отбора данных и применения стратегии пересэмплирования для решения проблемы значительного дисбаланса типов данных. С помощью вышеперечисленных компонентов, ShowUI, легковесная модель на 2 миллиарда параметров, использующая 256K данных, достигает высокой точности в 75.1% при нулевом тестировании на привязке к скриншотам. Ее выбор токенов, руководимый UI, дополнительно сокращает на 33% избыточные визуальные токены во время обучения и ускоряет производительность в 1.4 раза. Эксперименты по навигации в средах web Mind2Web, мобильного AITW и онлайн MiniWob подчеркивают эффективность и потенциал нашей модели для развития визуальных агентов GUI. Модели доступны по адресу https://github.com/showlab/ShowUI.

Переосмысление сокращения токенов в MLLMs: К единому подходу для ускорения без обучения

Для ускорения инференса сложных мультимодальных крупных языковых моделей (MLLMs) данное исследование переосмысливает текущий ландшафт исследований по сокращению токенов без обучения. Мы с сожалением отмечаем, что ключевые компоненты существующих методов тесно переплетены, и их взаимосвязи и эффекты остаются неясными для сравнения, переноса и расширения. Поэтому мы предлагаем унифицированный подход "фильтровать-связывать-сжимать", который разделяет процесс сокращения токенов на три отдельные стадии в рамках конвейера, сохраняя при этом последовательные цели и элементы дизайна, но позволяя уникальные реализации. Кроме того, мы объясняем популярные работы и включаем их в наш подход, чтобы продемонстрировать его универсальность. Наконец, мы предлагаем набор методов, основанных на этом подходе, которые находят баланс между скоростью и точностью на разных этапах инференса. Результаты экспериментов на 10 бенчмарках показывают, что наши методы могут достигать сокращения FLOPs до 82.4% с минимальным влиянием на производительность, одновременно превосходя современные методы без обучения. Страница нашего проекта находится по адресу https://ficoco-accelerate.github.io/.

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

Материал для всего: Генерация материалов для любых 3D объектов с помощью диффузии

Мы представляем Material Anything, полностью автоматизированный унифицированный фреймворк для диффузии, предназначенный для создания физически обоснованных материалов для 3D объектов. В отличие от существующих методов, которые полагаются на сложные пайплайны или оптимизации, специфичные для каждого случая, Material Anything предлагает надежное, комплексное решение, адаптируемое к объектам при различных условиях освещения. Наш подход использует предварительно обученную модель диффузии изображений, улучшенную за счет трехголовой архитектуры и потерь при рендеринге, чтобы повысить стабильность и качество материалов. Кроме того, мы вводим маски уверенности в качестве динамического переключателя внутри модели диффузии, что позволяет ей эффективно работать как с текстурированными, так и с нетекстурированными объектами при различных условиях освещения. Используя стратегию прогрессивной генерации материалов, руководствуясь этими масками уверенности, а также рефайнером материалов в пространстве UV, наш метод обеспечивает последовательные, готовые к UV-использованию материалы. Обширные эксперименты демонстрируют, что наш подход превосходит существующие методы по широкому диапазону категорий объектов и условий освещения.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одно из перспективных направлений - разработка токенизатора, способного кодировать длинные видеофрагменты, что позволило бы токенизатору лучше использовать временную когерентность видео для токенизации. Однако, обучение существующих токенизаторов на длинных видео часто влечет за собой огромные затраты на обучение, так как они обучены на восстановлении всех кадров одновременно. В данной статье мы представляем CoordTok, токенизатор видео, который учится преобразовывать представления на основе координат в соответствующие патчи входных видео, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в фрагментированные трехплоскостные представления и восстанавливает патчи, соответствующие случайно выбранным координатам (x,y,t). Это позволяет обучать большие модели токенизаторов непосредственно на длинных видео без необходимости в чрезмерных ресурсах для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов, необходимых для кодирования длинных видеофрагментов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128x128 в 1280 токенов, тогда как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества восстановления. Мы также показываем, что такая эффективная токенизация видео позволяет проводить обучение диффузионного трансформера, который может генерировать 128 кадров одновременно, экономя память.

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

Терпение - ключ к рассуждениям больших языковых моделей

Недавние достижения в области крупных языковых моделей, особенно с использованием метода цепочки мыслей (CoT), продемонстрировали значительное улучшение в решении сложных задач. Однако существующие модели либо склонны жертвовать детализированным рассуждением ради краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для освоения сложных способностей к рассуждению, что ограничивает их потенциал в решении комплексных задач. Чтобы преодолеть этот разрыв, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, который поощряет модели к более терпеливому стилю рассуждений без необходимости введения новых знаний или навыков. Для реализации подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений в качестве положительных примеров и простые ответы — как отрицательные примеры, тем самым обучая модель отдавать предпочтение тщательности в своих ответах. Наши результаты показывают увеличение производительности до 6.7% на GSM8k при обучении только на легковесном наборе данных.

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность благодаря более глубокому рассуждению, эволюционируя от подсказок в цепочке мыслей к решениям уровня продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, данные высокого качества для долгосрочного рассуждения и оптимизированные обучающие конвейеры все еще недостаточно исследованы в задачах, связанных с обработкой изображений и языка. В этой статье мы представляем Insight-V, раннюю попытку 1) масштабно создавать длинные и надежные данные для рассуждения для сложных мультимодальных задач и 2) эффективный обучающий конвейер для улучшения способностей рассуждения многоязыковых больших языковых моделей (MLLM). В частности, для создания длинных и структурированных данных рассуждения без человеческого труда мы разработали двухэтапный конвейер с прогрессивной стратегией, чтобы генерировать достаточно длинные и разнообразные пути рассуждений, а также метод многоуровневой оценки для обеспечения качества данных. Мы заметили, что непосредственное обучение MLLM с такими длинными и сложными данными рассуждения не приводит к идеальным способностям рассуждения. Для решения этой проблемы мы разработали мультиагентную систему, состоящую из агента рассуждения, специализирующегося на выполнении долгосрочных рассуждений, и агента сводки, обученного оценивать и обобщать результаты рассуждений. Мы также внедрили итерационный алгоритм DPO для повышения стабильности и качества генерации рассуждений агентом. На основе популярной модели LLaVA-NeXT и нашего более мощного базового MLLM мы демонстрируем значительное улучшение производительности по сложным мультимодальным бенчмаркам, требующим визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также может легко поддерживать или улучшать производительность в задачах, ориентированных на восприятие мультимодальных данных.

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

Адаптивное декодирование с помощью оптимизации латентных предпочтений

Во время декодирования языковых моделей известно, что использование более высокой температуры выборки приводит к более креативным ответам, тогда как более низкие температуры дают более фактически точные результаты. Однако такие модели обычно применяются для общих инструкций, которые включают как креативные, так и фактические задачи, используя единую фиксированную температуру для всех примеров и токенов. В данной работе мы представляем Адаптивное Декодирование, слой, добавленный к модели для динамического выбора температуры выборки во время вывода, на уровне токена или примера, для оптимизации производительности. Для обучения его параметров мы вводим Оптимизацию Латентных Предпочтений (LPO), общий подход к обучению дискретных латентных переменных, таких как выбор температуры. Наш метод превосходит все фиксированные температуры декодирования на ряде задач, требующих различных температур, включая UltraFeedback, Креативное Писательство Историй и GSM8K.

Поиск, проверка и обратная связь: К следующему поколению пост-тренировочного парадигма фундаментальных моделей через инженерию верификаторов

Эволюция машинного обучения все чаще акцентируется на разработке мощных моделей и более масштабируемых сигналов надзора. Однако, появление фундаментальных моделей вызывает значительные трудности в предоставлении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. В результате, возникает срочная необходимость исследовать новые сигналы надзора и технические подходы. В данной статье мы предлагаем концепцию инженерии верификаторов — новый парадигм постобучения, специально разработанный для эпохи фундаментальных моделей. Основой инженерии верификаторов является использование набора автоматизированных верификаторов для выполнения задач проверки и предоставления значимой обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификаторов на три ключевых этапа: поиск, проверка и обратная связь, а также предоставляем всесторонний обзор последних научных достижений на каждом из этих этапов. Мы считаем, что инженерия верификаторов представляет собой фундаментальный путь к достижению искусственного общего интеллекта.

Путешествие в Мир Генеративного Исследования: Введение в Genex

Планирование с частичным наблюдением является ключевой проблемой в области воплощённого ИИ. Большинство предыдущих работ решали эту проблему, разрабатывая агентов, которые физически исследуют свою среду для обновления своих представлений о состоянии мира. В отличие от этого, люди могут представлять невидимые части мира через умственное исследование и пересматривать свои представления с помощью воображаемых наблюдений. Такие обновлённые представления позволяют им принимать более обоснованные решения, не требуя постоянного физического исследования мира. Чтобы достичь этой способности, характерной для человека, мы представляем Генеративного Исследователя Мира (Genex), фреймворк для исследования мира с эгоцентрической точки зрения, который позволяет агенту мысленно исследовать большой трёхмерный мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего представления. Это обновлённое представление затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаём синтетический набор данных городских сцен, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать высококачественные и согласованные наблюдения при длительном исследовании большого виртуального физического мира и (2) представления, обновлённые с помощью сгенерированных наблюдений, могут информировать существующую модель принятия решений (например, агента LLM) для составления лучших планов.

Исследование роли "Конституций" для обучения на обратной связи ИИ

Развивающиеся возможности больших языковых моделей (LLM) привели к их использованию в качестве замены человеческой обратной связи для обучения и оценки других LLM. Эти методы часто опираются на «конституции», письменные руководства, которые модель критика использует для предоставления обратной связи и улучшения генераций. Мы исследуем, как выбор конституции влияет на качество обратной связи, используя четыре разные конституции для улучшения пациент-ориентированного общения на медицинских собеседованиях. В парных сравнениях, проведённых 215 оценщиками, мы обнаружили, что подробные конституции приводят к лучшим результатам в отношении эмоциональных качеств. Однако ни одна из конституций не превзошла базовый уровень в обучении более практически ориентированным навыкам, связанным с сбором и предоставлением информации. Наши выводы показывают, что, хотя следует отдавать предпочтение подробным конституциям, существуют возможные ограничения эффективности обратной связи AI как сигнала вознаграждения в определённых областях.

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

textmaskmotion

CamemBERT 2.0: Эволюция французского языкового моделирования

Модели французского языка, такие как CamemBERT, были широко приняты в различных отраслях для задач обработки естественного языка (NLP), причем модели вроде CamemBERT имеют более 4 миллионов загрузок в месяц. Однако эти модели сталкиваются с вызовами из-за временного смещения концепций, когда устаревшие обучающие данные приводят к снижению производительности, особенно при встрече с новыми темами и терминологией. Этот вопрос подчеркивает необходимость обновления моделей, отражающих современные лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих проблем. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует задачу обнаружения замененных токенов (RTD) для улучшения понимания контекста, в то время как CamemBERTv2 построена на RoBERTa, которая использует задачу маскированного моделирования языка (MLM). Обе модели обучены на значительно большем и более актуальном наборе данных с удлиненной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общих задачах NLP, так и в специфических областях применения, таких как медицинские задачи, демонстрируя их универсальность и эффективность в различных случаях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны в открытом доступе на платформе Huggingface.

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

Введение в IOPO: Оптимизация предпочтений входа-выхода для улучшения следования инструкциям в LLM

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям является ключевой, поскольку всё больше агентов и приложений используют LLM для разработки, где сложность инструкций быстро возрастает. Однако, с одной стороны, существует ограниченное количество данных для оценки сложных инструкций; с другой стороны, нет специализированных алгоритмов для улучшения способности следовать сложным инструкциям. В этой связи данная статья представляет TRACE, эталон для улучшения и оценки способности следовать сложным инструкциям, который включает 120 тысяч обучающих данных и 1 тысячу данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Input-Output Preference Optimization), который учитывает пары предпочтений входных и выходных данных, где LLM не только быстро адаптируются к предпочтениям ответов, но и тщательно исследуют предпочтения инструкций. Многочисленные эксперименты на данных внутри домена и за его пределами подтверждают эффективность IOPO, показывая улучшения на 8.15% и 2.18% для данных внутри домена и 6.29% и 3.13% для данных за пределами домена по сравнению с SFT и DPO соответственно.

НЕКО: Построение пост-распознавания с использованием моделей больших языковых моделей и специалистов по задачам

Конструкция общего назначения корректора ошибок после распознавания ставит важный вопрос: как наиболее эффективно обучить модель на большом смешении наборов данных из различных областей? Ответ заключается в изучении специфических для каждого набора данных характеристик и их интеграции в единую модель. Ранние методы достигали этого, создавая отдельные модели коррекции языка, что приводило к значительному увеличению числа параметров. В данной работе мы представляем решение с использованием концепции "Смесь экспертов" (Mixture-of-Experts, MoE), подчеркивая, что MoE - это гораздо больше, чем просто инструмент для масштабирования. Мы предлагаем MoE для многозадачной коррекции, где эксперты обучаются быть "специалистами" в области распознавания речи, перевода текста и обработки визуальной информации, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на Open ASR Leaderboard показывают, что мы исследуем новый уровень производительности, достигая в среднем относительного снижения WER на 5.0% и значительных улучшений в BLEU для задач распознавания речи и перевода. При нулевом тестировании NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15.5% до 27.6% в тесте Hyporadise. NeKo показывает конкурентоспособные результаты по грамматике и коррекции после OCR в качестве модели для многих задач.

Энергоэффективные модели языка белков: Использование малых языковых моделей с LoRA для контролируемой генерации белков

Крупные языковые модели (LLM) показали значительный успех в задачах обработки естественного языка (NLP) и продемонстрировали многообещающие результаты в других областях, таких как генерация последовательностей белков. Однако существуют существенные различия между LLM, используемыми для NLP, которые эффективно справляются с множеством задач и доступны в небольших размерах, и языковыми моделями белков, которые часто специализированы для конкретных задач и существуют только в более крупных размерах. В этой работе мы представляем две небольшие языковые модели белков, основанные на Llama-3-8B и Phi-3-mini, которые способны генерировать белки как неконтролируемым, так и контролируемым способом. Для задачи неконтролируемой генерации наша лучшая модель достигает среднего pLDDT-оценки 69.75, что свидетельствует о надежной работоспособности при создании жизнеспособных структур белков. Для задачи контролируемой генерации, где модель генерирует белки в соответствии с заданными в запросе свойствами, мы достигли выдающегося среднего TM-Score в 0.84, что указывает на высокую структурную схожесть с целевыми белками. Мы выбрали 10 свойств, включая шесть классов ферментов, чтобы расширить возможности предыдущих языковых моделей белков. Наш подход использует технику Low-Rank Adaptor (LoRA), сокращая количество обучаемых параметров до всего 4% от исходного размера модели, что снижает вычислительные требования. Используя подмножество набора данных UniRef50 и небольшие модели, мы сократили общее время обучения на 70% без ущерба для производительности. Стоит отметить, что Phi-3-mini сократил количество обучаемых параметров на 60%, уменьшив затраты на обучение на 30% по сравнению с Llama 3. В результате, Phi-3 достигла сопоставимого TM-Score в 0.81, демонстрируя, что меньшие модели могут соответствовать производительности более крупных, таких как Llama 3. Мы также продемонстрировали развертывание наших моделей на энергосберегающем чипе ET-SoC-1, значительно улучшив TPS/W в три раза.

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

Языковые модели как скрытые логики: Раскрытие латентных возможностей рассуждений с помощью самооценки

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности, но всё ещё испытывают трудности с задачами сложного рассуждения, требующими нескольких шагов. Хотя методы, основанные на подсказках, такие как Цепочка мыслей (CoT), могут улучшить способности LLM к рассуждению во время вывода, оптимизация способностей к рассуждению во время обучения остаётся сложной задачей. Мы представляем Оптимизацию латентного рассуждения (LaTRO), принципиальную структуру, которая формулирует рассуждение как выборку из латентного распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений без необходимости внешней обратной связи или моделей вознаграждения. Мы проверили LaTRO на экспериментах с наборами данных GSM8K и ARC-Challenge, используя несколько архитектур моделей. На GSM8K, LaTRO улучшает нулевой точность на 12.5% по сравнению с базовыми моделями и на 9.6% по сравнению с надзорной настройкой для моделей Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты указывают на то, что предобученные LLM обладают скрытыми способностями к рассуждению, которые можно раскрыть и улучшить с помощью нашего предложенного подхода к оптимизации в рамках самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.

Открытый Код: Рецепт для Создания Лучших Моделей Кода на Базе LLM

Крупные языковые модели (LLM) для кода стали незаменимыми в различных областях, включая генерацию кода, задачи логического мышления и системы агентов. Хотя модели кода с открытым доступом всё чаще приближаются к уровню производительности проприетарных моделей, высококачественные LLM для кода, подходящие для строгих научных исследований, особенно те, которые имеют воспроизводимые пайплайны обработки данных и прозрачные протоколы обучения, остаются ограниченными. Такая нехватка обусловлена различными вызовами, включая ограничения ресурсов, этические соображения и конкурентные преимущества, связанные с сохранением передовых моделей. Чтобы заполнить этот пробел, мы представляем OpenCoder, модель LLM для кода высшего уровня, которая не только достигает производительности, сравнимой с ведущими моделями, но и служит «открытой кулинарной книгой» для научного сообщества. В отличие от большинства предыдущих попыток, мы публикуем не только веса модели и код для вывода, но и воспроизводимые обучающие данные, полный пайплайн обработки данных, результаты строгих экспериментальных абляций и подробные протоколы обучения для открытых научных исследований. Через это комплексное раскрытие мы определяем ключевые ингредиенты для создания модели LLM для кода высшего уровня: (1) оптимизированные эвристические правила для очистки данных и методы дедупликации данных, (2) вспоминание текстовых корпусов, связанных с кодом, и (3) высококачественные синтетические данные на этапах отжига и контролируемого дообучения. Предлагая такой уровень открытости, мы стремимся расширить доступ ко всем аспектам модели LLM для кода высшего уровня, при этом OpenCoder служит как мощной моделью, так и открытой основой для ускорения исследований и обеспечения воспроизводимых достижений в области ИИ для кода.

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.

Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

Само-согласование, при котором модели учатся улучшать себя без человеческой разметки, является быстро развивающейся областью исследований. Однако существующие методы часто не справляются с улучшением сложных задач мышления из-за трудности в присвоении правильных наград. Ортогональным подходом, который известен своей способностью улучшать точность, является само-согласованность, метод, применяемый на этапе вывода на основе многократной выборки для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию само-согласованности для помощи в обучении моделей. Мы вводим оптимизацию предпочтений само-согласованности (ScPO), которая итеративно обучает модели предпочитать согласованные ответы несогласованным на новых ненадзорных задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с традиционным обучением модели наград на задачах мышления, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинация ScPO со стандартным контролируемым обучением улучшает результаты еще больше. На ZebraLogic, ScPO дообучает Llama-3 8B, делая её превосходящей Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.

trainingvlmsood

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.

Повышение способности генерации длинных текстов с помощью LLM

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.

NeuZip: Эффективная компрессия нейронных сетей для обучения и вывода

Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью устройства во время обучения и вывода. Хотя применение техник, таких как квантование, может облегчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей точкой в нейронных сетях. С помощью NeuZip мы можем достичь эффективного по памяти обучения и вывода без ущерба для производительности. В частности, мы значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B, с 31 ГБ до менее чем 16 ГБ, при этом динамика обучения остается полностью неизменной. Во время вывода наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти безошибочную производительность. Наш код доступен публично.

Что произошло в слоях LLM при обучении на быстрых и медленных размышлениях: Градиентная перспектива

Что влияет на послеобучение крупных языковых моделей (LLM)? Мы исследуем паттерны обучения различных слоев крупных языковых моделей через призму градиентов, когда обучение ведется с различными откликами и начальными моделями. Нас особенно интересует, как быстрое и медленное мышление влияет на градиенты по слоям, учитывая недавнюю популярность обучения LLM на путях рассуждений, таких как цепочки мыслей (CoT) и процесс вознаграждения. В нашем исследовании быстрое мышление без использования CoT приводит к большим градиентам и большим различиям градиентов между слоями по сравнению с медленным мышлением (подробный CoT), что указывает на стабильность обучения, обеспечиваемую последним. Более того, предварительно обученные LLM менее подвержены нестабильности быстрого мышления, чем LLM, настроенные на инструкции. Дополнительно мы изучаем, могут ли паттерны градиентов отражать правильность ответов при обучении различных LLM с использованием путей быстрого и медленного мышления. Результаты показывают, что градиенты медленного мышления могут различать правильные и неуместные пути рассуждений. В сравнении, мы проводим аналогичный анализ градиентов на задачах обучения нерассуждающим знаниям, где, однако, тривиальное увеличение длины ответа не приводит к аналогичному поведению медленного мышления. Наше исследование укрепляет фундаментальное понимание обучения LLM и дает новые взгляды на его эффективность и стабильность, что прокладывает путь к созданию обобщающего агента System-2. Наш код, данные и статистика градиентов доступны по ссылке: https://github.com/MingLiiii/Layer_Gradient.