Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

KV-Shifting Attention: Новая Эра в Языковом Моделировании

Современные крупные языковые модели в основном основаны на структуре трансформеров только декодирования, которые обладают отличными способностями к обучению в контексте (ICL). Общее мнение заключается в том, что важной основой её способности ICL является механизм индукционных голов, который требует как минимум два слоя внимания. Чтобы более эффективно реализовать способность индукции модели, мы пересматриваем механизм индукционных голов и предлагаем внимание с перемещением KV. Мы теоретически доказываем, что внимание с перемещением KV снижает требования модели к глубине и ширине механизма индукционных голов. Наши экспериментальные результаты демонстрируют, что внимание с перемещением KV благоприятно сказывается на обучении индукционных голов и языковом моделировании, что приводит к лучшей производительности или более быстрой сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 миллиардами параметров.

OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого типа, таких как текст-в-изображение, текст-в-аудио и синтез аудио-в-изображение. OmniFlow продвигает преобразование откорректированного потока (RF), использующееся в моделях текст-в-изображение, для обработки совместного распределения нескольких модальностей. Она превосходит предыдущие модели любого типа по широкому диапазону задач, таких как синтез текст-в-изображение и текст-в-аудио. Наша работа предлагает три ключевых вклада: во-первых, мы расширяем RF до многомодальной настройки и вводим новый механизм управления, позволяющий пользователям гибко контролировать выравнивание между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру MMDiT текста-в-изображение Stable Diffusion 3 и позволяет генерировать аудио и текст. Расширенные модули могут быть эффективно предобучены индивидуально и объединены с обычным текст-в-изображение MMDiT для дообучения. Наконец, мы проводим комплексное исследование по выбору дизайна трансформеров откорректированного потока для генерации аудио и текста в крупном масштабе, предоставляя ценные идеи по оптимизации производительности для различных модальностей. Код будет доступен на https://github.com/jacklishufan/OmniFlows.

Negative Token Merging: Новые горизонты в управлении генерацией изображений

Текстовая адверсариальная направленность с использованием отрицательного запроса стала широко распространенным подходом для отдаления выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение адверсариального управления только с помощью текста может быть недостаточным для захвата сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя адверсариальное руководство непосредственно с использованием визуальных характеристик из эталонного изображения или других изображений в партии. В частности, мы представляем объединение отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который выполняет адверсариальное руководство, выборочно раздвигая совпадающие семантические характеристики (между эталоном и выходным генерацией) в процессе обратной диффузии. При использовании в отношении других изображений из той же партии мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное) без ущерба для качества выходного изображения. Аналогично, при использовании в отношении защищенного авторским правом актива по эталону, NegToMe помогает уменьшить визуальное сходство с защищенным контентом на 34,57%. NegToMe просто реализуется с использованием всего нескольких строк кода, использует лишь незначительно большее (<4%) время вывода и обобщается на разные архитектуры диффузии, такие как Flux, которые изначально не поддерживают использование отдельного отрицательного запроса. Код доступен по адресу https://negtome.github.io

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

Масштабирование поиска во время вывода с помощью модели Vision Value для улучшения визуального восприятия

Несмотря на значительные достижения в области моделей визуального языка (VLM), отсутствуют эффективные подходы для повышения качества ответов за счет масштабирования вычислений во время вывода. Эта способность известна как ключевой шаг к самоусовершенствующимся моделям в недавних исследованиях больших языковых моделей. В этой статье мы представляем модель Vision Value Model (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. В частности, VisVM не только оценивает качество сгенерированного предложения на текущем шаге поиска, но и предсказывает качество последующих предложений, которые могут возникнуть из текущего шага, тем самым предоставляя долгосрочную ценность. Таким образом, VisVM отвлекает VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск с помощью VisVM значительно усиливает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций по сравнению с жадным декодированием и поисковыми методами с другими визуальными сигналами вознаграждения. Кроме того, мы обнаружили, что самообучение модели с помощью подписи, направляемой VisVM, улучшает производительность VLM по множеству мультимодальных бенчмарков, что указывает на потенциал разработки самоусовершенствующихся VLM. Наша модель ценности и код доступны по адресу https://github.com/si0wang/VisVM.

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

AnyDressing: Настраиваемая виртуальная примерка одежды с помощью латентных диффузионных моделей

Недавние достижения в генерации изображений, ориентированных на одежду, из текстовых и графических подсказок на основе диффузионных моделей, впечатляют. Однако существующие методы не поддерживают различные комбинации нарядов и испытывают трудности с сохранением деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их эффективность в различных сценариях. В данной статье мы сосредоточены на новой задаче, а именно на виртуальной одежде с множеством нарядов, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации нарядов и любых персонализированных текстовых подсказок. AnyDressing состоит из двух основных сетей, названных GarmentsNet и DressingNet, которые соответственно предназначены для извлечения детализированных характеристик одежды и генерации индивидуализированных изображений. В частности, мы предлагаем эффективный и масштабируемый модуль с названием Garment-Specific Feature Extractor в GarmentsNet, чтобы индивидуально кодировать текстуры одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем мы разрабатываем механизм адаптивного Dressing-Attention и новую стратегию обучения локализации одежды на уровне экземпляра в DressingNet, чтобы точно внедрять многократные характеристики одежды в соответствующие регионы. Этот подход эффективно интегрирует текстурные подсказки многослойной одежды в сгенерированные изображения и далее улучшает согласованность текстов и изображений. Кроме того, мы представляем стратегию обучения текстур, улучшенную за счет одежды, для повышения детализации отточенных текстур одежды. Благодаря нашему хорошо продуманному дизайну AnyDressing может служить модулем плагина для легкой интеграции с любыми расширениями управления сообществом для диффузионных моделей, улучшая разнообразие и контролируемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает самых современных результатов.

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Мы представляем HumanEdit, высококачественный набор данных, вознагражденный людьми, специально разработанный для редактирования изображений под Anleitung, позволяющий точные и разнообразные манипуляции изображениями с помощью открытых текстовых инструкций. Предыдущие наборы данных редактирования крупномасштабного уровня часто включали минимальную обратную связь от человека, что приводило к проблемам с согласованием наборов данных с человеческими предпочтениями. HumanEdit преодолевает этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. С тщательно отобранными данными HumanEdit включает 5751 изображение и требует более 2500 часов человеческих усилий на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач редактирования изображений. Набор данных включает шесть различных типов инструкций редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывающих широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, а для подмножества данных мы обеспечиваем, чтобы инструкции были достаточно подробными для поддержки редактирования без масок. Более того, HumanEdit предлагает всеобъемлющее разнообразие и высокое разрешение 1024 на 1024 контента, полученного из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью содействия будущим исследованиям и установления оценочных стандартов в области редактирования изображений мы публикуем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

Проблемы надежной человеческой оценки чат-ботов

Открытые платформы, основанные на сообществе, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей от посещающих сайт, завоевали репутацию одного из самых надежных общественно доступных эталонов для оценки производительности LLM. Хотя на данный момент это стандарт, реализация эффективных ограждений для сбора качественной аннотации от людей является сложной задачей. В этой статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут подорвать надежность открытых рейтингов. В частности, мы показываем, что только 10% аннотаций низкого качества от равнодушных (посетителей сайта, не имеющих адекватных стимулов для правильного голосования) или противников (плохих актеров, стремящихся повысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы, связанные с обеспечением качественных аннотаций людей.

Дискриминативная дообучаемость больших моделях зрения и языка (LVLM)

Контрастно обученные модели зрения и языка (VLM), такие как CLIP, стали де-факто подходом для обучения предствления зрения и языка с учетом различий. Однако у этих моделей ограниченное понимание языка, которое часто проявляется в поведении «мешка слов». В то же время крупные модели зрения и языка (LVLM), которые комбинируют кодировщики зрения с большими языковыми моделями (LLM), показали свою способность к детальному рассуждению на основе зрения и языка, но их авторегрессивная природа делает их менее подходящими для дискриминационных задач. В этой работе мы предлагаем комбинировать «лучшее из обоих миров»: новый подход к обучению для дискриминационной тонкой настройки LVLM, который обеспечивает сильные способности к различению и композиции. В основном, наш подход преобразует генеративную LVLM в дискриминационную, разблокируя ее возможности для мощного различения изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную обучающую/оптимизационную структуру, которая использует пары изображений и текста переменной длины и тонкости для обучения модели с учетом контрастной потери и потерь предсказания следующего токена. Это сопровождается абляционными исследованиями, которые обосновывают необходимость компонентов нашей структуры. (2) Эффективный метод адаптации параметров с использованием комбинации мягкого запроса и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями подобными CLIP схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные улучшения в композиционности.

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

p-MoD: Эффективные Мультимодальные Большие Языковые Модели

Несмотря на выдающиеся результаты многомодальных больших языковых моделей (MLLM) в различных задачах, значительные затраты на обучение и вывод мешают их развитию. Большая часть вычислений связана с огромным объемом визуальных токенов, обрабатываемых декодером трансформера. В этой статье мы предлагаем создавать эффективные MLLM, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визуальные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLM не является тривиальной задачей. Чтобы справиться с проблемами стабильности обучения и вывода, а также ограниченными данными для обучения, мы адаптируем модуль MoD с помощью двух новых разработок: тангентально-контролируемой нормализации весов (TanhNorm) и симметричного переобучения токенов (STRing). Более того, мы наблюдаем, что визуальные токены проявляют более высокую избыточность в более глубоких слоях, и, следовательно, разрабатываем стратегию прогрессивного уменьшения соотношения (PRD), которая постепенно сокращает коэффициент удержания токенов слой за слоем, используя смещенный косинусный график. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно увеличивая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями по 14 контрольным точкам. Наша модель, p-MoD, сравнивается или даже превосходит производительность базовых моделей, при этом затрачивая всего 55,6% TFLOPs и 53,8% хранения кэша KV во время вывода и 77,7% GPU-часов во время обучения.

A GUVIS: Объединённые агенты с чистым зрением для автономного взаимодействия с графическими интерфейсами

Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированную чисто визуальную платформу для автономных агентов GUI, которая работает на различных платформах. Наш подход использует наблюдения на основе изображений и связывает инструкции на естественном языке с визуальными элементами, а также применяет согласованное пространство действий для обеспечения обобщения между платформами. Чтобы преодолеть ограничения предыдущих работ, мы интегрируем явное планирование и рассуждения в модель, что увеличивает ее способность автономно ориентироваться и взаимодействовать со сложными цифровыми средами. Мы создаем масштабный набор данных о траекториях агентов GUI, включая многомодальное рассуждение и связывание, и применяем двухэтапный тренировочный конвейер, который сначала фокусируется на общем связывании GUI, а затем на планировании и рассуждении. Через всесторонние эксперименты мы демонстрируем, что Aguvis превосходит предыдущие передовые методы как в оффлайновых, так и в реальных онлайн-сценариях, включая, насколько нам известно, первого полностью автономного чисто визуального агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы открыли исходные коды всех наборов данных, моделей и рецептов обучения, чтобы содействовать будущим исследованиям по адресу https://aguvis-project.github.io/.

Код как Монитор: Осознание Ограничений в Визуальном Программировании для Реактивного и Проактивного Обнаружения Ошибок Роботов

Автоматическое обнаружение и предотвращение сбоев открытого множества имеют решающее значение в системах робототехники с замкнутым циклом. Недавние исследования часто сталкиваются с трудностями при одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых проактивно. С этой целью мы предлагаем Code-as-Monitor (CaM), новую парадигму, использующую модель визуального языка (VLM) как для реактивного, так и для проактивного обнаружения сбоев открытого множества. Основой нашего метода является формулирование обеих задач как единого набора задач удовлетворения пространственно-временных ограничений и использование кода, сгенерированного VLM, для их оценки в режиме реального времени. Для повышения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют связанные с ограничениями сущности или их части в компактные геометрические элементы. Этот подход предлагает большую универсальность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы как визуальные подсказки. Эксперименты показывают, что CaM достигает на 28,7% более высокой степени успеха и снижает время выполнения на 31,8% в условиях сильных помех по сравнению с базовыми показателями в трех симуляторах и в реальных условиях. Более того, CaM можно интегрировать с политиками управления открытым циклом для формирования замкнутых систем, что позволяет выполнять долгосрочные задачи в загроможденных сценах с динамическими условиями.

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).

VisionZip: Устранение избыточности визуальных токенов в моделях "визуальный-язык"

Недавние достижения в моделях связи «визуальный-язык» повысили эффективность, увеличив длину визуальных токенов, сделав их значительно длиннее текстовых токенов и значительно увеличив вычислительные затраты. Тем не менее, мы наблюдаем, что визуальные токены, созданные популярными визуальными энкодерами, такими как CLIP и SigLIP, содержат значительную избыточность. Чтобы решить эту проблему, мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для подачи в языковую модель, уменьшая визуальную токенизаторную избыточность и улучшая эффективность при сохранении производительности модели. Предложенный VisionZip может широко применяться к задачам понимания изображений и видео и хорошо подходит для многоповоротных диалогов в реальных сценариях, где предыдущие методы, как правило, показывают низкие результаты. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий самый лучший метод как минимум на 5% в производительности во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительного заполнения в 8 раз и позволяя модели LLaVA-Next 13B выводить быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто на увеличении длины токенов. Наш код доступен на https://github.com/dvlab-research/VisionZip .

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.