Ай Дайджест - категория framework

FashionComposer: Генерация Композиционных Модных Изображений

Мы представляем FashionComposer для генерации композиционных модных изображений. В отличие от прежних методов, FashionComposer обладает высокой гибкостью. Он принимает многомодульный ввод (т.е. текстовый запрос, параметрическую модель человека, изображение одежды и изображение лица) и поддерживает персонализацию внешнего вида, позы и фигуры человека, а также назначение нескольких предметов одежды за один проход. Для достижения этого мы сначала развиваем универсальную структуру, способную обрабатывать различные входные модули. Мы строим масштабированные учебные данные, чтобы улучшить надежные композиционные способности модели. Чтобы бесшовно интегрировать несколько изображений-ссылок (одежды и лиц), мы организуем эти ссылки в одном изображении как «библиотеку активов» и используем UNet ссылок для извлечения внешних характеристик. Чтобы ввести внешние характеристики в правильные пиксели в сгенерированном результате, мы предлагаем привязку внимания к субъекту. Она связывает внешние характеристики из разных «активов» с соответствующими текстовыми характеристиками. Таким образом, модель может понимать каждый актив в соответствии с их семантикой, поддерживая произвольные числа и типы изображений-ссылок. Как комплексное решение, FashionComposer также поддерживает многие другие приложения, такие как генерация альбома человека, различные виртуальные задания по примерке и т.д.

2024-12-19attention modality image

S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

Академическая область обучения визуальной навигации, управляемой инструкциями, может быть в общем случае подразделена на навигацию, основанную на высокоуровневом поиске по категориям, и навигацию, основанную на языковых инструкциях низкого уровня, в зависимости от детализации языковых указаний, где первая акцентирует внимание на процессе исследования, в то время как вторая сосредотачивается на выполнении детализированных текстовых команд. Несмотря на различия в фокусе этих задач, основные требования к интерпретации инструкций, пониманию окружающей среды и выводу решений по действиям остаются неизменными. В данной статье мы объединяем различные задачи навигации в единую и общую структуру - мы исследуем основные трудности дележа общих знаний и использования специфических задачам возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основании языковых инструкций с различной детальностью и динамических наблюдений. С помощью SAME мы представляем универсального агента, способного одновременно решать семь задач навигации, который превосходит или достигает высоко сопоставимых результатов с узкоспециализированными агентами.

2024-12-13navigation agents framework

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

2024-12-11framework decoding representation

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

2024-12-11customization dataset adaptation

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

2024-12-11framework generation editing

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

2024-12-06classification model dataset

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

2024-12-06generation tokens prediction

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).

2024-12-06inference temporal synchronization

Imagine360: Генерация Иммерсивного 360° Видео из Перспективных Анкеров

360^circ Видеоролики предлагают гипериммерсивный опыт, который позволяет зрителям исследовать динамическую сцену в полном объеме 360 градусов. Для достижения более удобного для пользователя и персонализированного создания контента в формате 360^circ видео мы стремимся преобразовать стандартные перспективные видео в 360^circ экваториальные видео. С этой целью мы представляем Imagine360, первую платформу для генерации видео, которая преобразует перспективные видео в 360^circ, создавая высококачественные 360^circ видео с богатыми и разнообразными движущимися паттернами из видео- якорей. Imagine360 изучает тонко детализированные сферические визуальные и движущиеся паттерны из ограниченных данных 360^circ видео с несколькими ключевыми разработками. 1) Во-первых, мы принимаем двуветвевый дизайн, который включает в себя ветвь денойзинга перспективного видео и панорамы, чтобы обеспечить локальные и глобальные ограничения для генерации 360^circ видео, с модулем движения и пространственными слоями LoRA, тонко настроенными на расширенных веб-360^circ видео. 2) Кроме того, devised an antipodal mask, чтобы захватить длинные зависимости движения, улучшая превращение камеры между противоположными пикселями на разных полушариях. 3) Чтобы обрабатывать различные входные перспективные видео, мы предлагаем дизайны, учитывающие высоту, которые адаптируются к изменяющимся маскам видео из-за изменения высоты между кадрами. Обширные эксперименты показывают, что Imagine360 достигает превосходного качества графики и согласованности движения среди современных методов генерации 360^circ видео. Мы считаем, что Imagine360 имеет потенциал для продвижения персонализированного, иммерсивного создания 360^circ видео.

2024-12-05motion videos patterns

MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.

2024-12-04augmentation robustness learning

SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

Человеческие существа - социальные животные. Как наделить 3D автономных персонажей подобным социальным интеллектом, способным воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной задачей. В этой статье мы представляем SOLAMI, первую модельную структуру от начала до конца для социального видения-языка-действия (VLA) для погружающего взаимодействия с 3D автономными персонажами. В частности, SOLAMI строит 3D автономных персонажей с трех аспектов: (1) Архитектура социального VLA: Мы предлагаем единый социальный VLA фреймворк для генерации мультимодальных ответов (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социальных взаимодействий, сгенерированный автоматическим конвейером, использующим только существующие наборы данных движения для решения проблемы нехватки данных. (3) Погружающий VR интерфейс: Мы разрабатываем VR интерфейс, который позволяет пользователям погружающе взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и исследования пользователей показывают, что наша структура приводит к более точным и естественным реакциям персонажей (как в речи, так и в движении), которые соответствуют ожиданиям пользователей с более низкой задержкой.

2024-12-03interaction multimodal framework

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

2024-11-29generative models scalability

Make-It-Animatable: Эффективная структура для создания анимационных 3D персонажей

2024-11-28skinning representation animation

Интерливинг текстов и изображений: Новая эра генеративного ИИ

Многие реальные запросы пользователей (например, «Как сделать жареный рис с яйцом?») могут извлечь выгоду от систем, способных генерировать ответы с текстовыми шагами и сопутствующими изображениями, подобно кулинарным книгам. Модели, предназначенные для генерации чередующегося текста и изображений, сталкиваются с проблемами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную оценочную структуру для чередующейся генерации текста и изображений. ISG использует структуру графа сцены для захвата взаимосвязей между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях гранулярности: целостный, структурный, блочный и специфичный для изображения. Эта многоуровневая оценка позволяет провести тонкую оценку согласованности, последовательности и точности, а также предоставляет интерпретируемую обратную связь по вопросам и ответам. В дополнение к ISG мы представляем контрольный набор, ISG-Bench, охватывающий 1150 образцов в 8 категориях и 21 подкатегории. Этот контрольный набор данных включает сложные зависимости языка и зрения и золотые ответы для эффективной оценки моделей на задачах, ориентированных на зрительное восприятие, таких как перенос стиля, что является сложной областью для современных моделей. Используя ISG-Bench, мы демонстрируем, что недавние унифицированные модели языка и зрения показывают плохие результаты в генерации чередующегося контента. Хотя композиционные подходы, объединяющие отдельные языковые и изображенческие модели, демонстрируют улучшение на 111% по сравнению с унифицированными моделями на целостном уровне, их производительность остается субоптимальной как на блочном, так и на уровне изображений. Чтобы облегчить будущую работу, мы разработали ISG-Agent, базового агента, использующего конвейер "планировать-выполнить-совершенствовать" для вызова инструментов, достигая улучшения производительности на 122%.

2024-11-28generation evaluation dataset

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

2024-11-26inpainting gaussian framework

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

2024-11-25framework encoder dataset

VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

Прогресс в области крупномасштабных моделей языков зрения (LVLMs) значительно улучшил понимание мультимодальных данных, однако задачи по рассуждению на основе видео по-прежнему сталкиваются с трудностями из-за недостатка качественных, масштабных датасетов. Существующие наборы данных для вопросно-ответных систем на видео (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или от автоматических методов построения с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложных рассуждений. Чтобы решить эти проблемы, мы представляем VideoEspresso, новый датасет, который включает пары VideoQA, сохраняющие ключевые пространственные детали и временную последовательность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша конвейерная линия построения использует метод, ориентированный на семантику, для снижения избыточности, после чего генерируются пары ВО с помощью GPT-4o. Мы также развиваем аннотации видеосвязей мыслей (CoT) для обогащения процессов рассуждения, направляя GPT-4o на извлечение логических связей из пар ВО и содержимого видео. Для использования потенциала высококачественных пар VideoQA, мы предлагаем фреймворк сотрудничества гибридных LVLMs, включающий в себя селектор кадров и двухэтапную инструкцию, настроенную на рассуждения LVLM. Этот фреймворк адаптивно выбирает ключевые кадры и выполняет рассуждения по методу CoT с использованием мультимодальных доказательств. Оцененный на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLMs, наш метод превосходит существующие базовые модели по большинству задач, демонстрируя превосходные возможности рассуждений по видео. Наш код и датасет будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso.

2024-11-25benchmark reasoning dataset

Интерпретация больших мультимодальных моделей: Разбор и управление внутренними представлениями

Недавние достижения в области крупных мультимодальных моделей (LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Возникает вопрос, как мы, как люди, можем понять их внутренние нейронные представления. В данной статье делается первый шаг к ответу на этот вопрос путем представления универсальной структуры для идентификации и интерпретации семантики внутри LMMs. В частности: 1) Сначала мы применяем разреженный автоэнкодер (SAE) для разделения представлений на понятные человеку характеристики. 2) Затем мы представляем автоматическую систему интерпретации для понимания открытых семантических характеристик, изученных SAE самими LMMs. Мы используем эту систему для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти характеристики могут эффективно направлять поведение модели. Наши результаты способствуют более глубокому пониманию того, почему LMMs превосходят в выполнении определенных задач, включая тесты на эмоциональный интеллект, и освещают природу их ошибок, а также потенциальные стратегии их исправления. Эти открытия предоставляют новые взгляды на внутренние механизмы LMMs и предполагают параллели с когнитивными процессами человеческого мозга.

2024-11-25behavior framework multimodal

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

2024-11-13framework architecture benchmark

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.

2024-11-08perception generation learning

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.

2024-11-07performance training modalities

Динамические Агенты на Основе LLM: Преодоление Ограничений Предопределённых Действий

Существующие системы агентов LLM обычно выбирают действия из фиксированного и предопределённого набора на каждом шаге. Хотя такой подход эффективен в закрытых, узко специализированных средах, мы утверждаем, что он создаёт две основные проблемы при развертывании агентов LLM в реальных сценариях: (1) выбор из фиксированного набора действий значительно ограничивает возможности планирования и действий агентов LLM, и (2) этот подход требует значительных человеческих усилий для перечисления и реализации всех возможных действий, что становится нецелесообразным в сложных средах с огромным количеством потенциальных действий. В этой работе мы предлагаем фреймворк для агента LLM, который позволяет динамически создавать и комбинировать действия в режиме онлайн. В этом фреймворке агент взаимодействует с окружением, генерируя и выполняя программы, написанные на универсальном языке программирования на каждом шаге. Кроме того, созданные действия накапливаются со временем для повторного использования в будущем. Наши обширные эксперименты на бенчмарке GAIA показывают, что этот фреймворк обеспечивает значительно большую гибкость и превосходит предыдущие методы. Особенно стоит отметить, что он позволяет агенту LLM восстанавливаться в ситуациях, когда в предопределённом наборе нет соответствующих действий или когда существующие действия не работают из-за непредвиденных случаев. На момент написания статьи мы занимаем первое место в публичном рейтинге GAIA. Наш код можно найти по ссылке https://github.com/adobe-research/dynasaur.

2024-11-05benchmark program framework

Повышение способности генерации длинных текстов с помощью LLM

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.

2024-11-01iterative evaluation benchmarks

Исследование неизведанного: Интерфейс на основе чата для персонализированных исследовательских задач

Восход популярности больших языковых моделей (LLM) произвел революцию во взаимодействии пользователей с системами, основанными на знаниях, позволяя чат-ботам синтезировать огромные объемы информации и помогать в выполнении сложных, исследовательских задач. Однако чат-боты на базе LLM часто сталкиваются с трудностями при предоставлении персонализированной поддержки, особенно когда пользователи начинают с неопределенных запросов или не имеют достаточной контекстной информации. В данной статье представляется Коллаборативный Ассистент для Персонализированного Исследования (CARE), система, разработанная для улучшения персонализации в исследовательских задачах путем объединения мультиагентной LLM структуры с организованным пользовательским интерфейсом. Интерфейс CARE включает в себя Панель Чата, Панель Решений и Панель Потребностей, что позволяет итеративно уточнять запросы и динамически генерировать решения. Мультиагентная структура работает совместно для выявления как явных, так и неявных потребностей пользователя, предлагая персонализированные, исполнимые решения. В ходе исследования с участием 22 человек, в котором сравнивались субъекты, CARE постоянно предпочитался базовому чат-боту на основе LLM, с пользователями, хвалившими его способность уменьшать когнитивную нагрузку, вдохновлять на креативность и предоставлять более адаптированные решения. Наши выводы подчеркивают потенциал CARE для преобразования систем на базе LLM из пассивных ретриверов информации в активных партнеров в персонализированном решении проблем и исследовании.

2024-11-01framework llm multi-agent