Ай Дайджест

ChatDiT: Новый Подход к Генерации Изображений с Использованием Диффузионных Трансформеров

Недавние исследования arXiv:2410.15027 arXiv:2410.23775 подчеркивают присущие возможности генерации в контексте предобученных диффузионных трансформеров (DiTs), позволяя им бесперебойно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются благодаря конкатенации токенов самовнимания по нескольким входным и целевым изображениям, в сочетании с сгруппированными и замаскированными генерационными конвейерами. Исходя из этой базы, мы представляем ChatDiT - универсальную интерактивную рамку визуального генерации, которая использует предобученные диффузионные трансформеры в их исходной форме, не требуя дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT, чтобы создавать чередующиеся текстово-изображенческие статьи, многослойные книжки с картинками, редактировать изображения, разрабатывать производные объекты ИП или разрабатывать настройки дизайна персонажей, все это с помощью свободной естественной речи в одном или нескольких раундах общения. В своей основе ChatDiT использует систему многопользовательских агентов, состоящую из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одноступенчатые или многоступенчатые генерационные действия, и агента исполнения, который выполняет эти действия с использованием встроенного набора инструментов диффузионных трансформеров. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, состоящем из 100 реальных дизайнерских задач и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и безтренировочный подход, ChatDiT превосходит всех конкурентов, включая тех, кто специально разработан и обучен на обширных многозадачных наборах данных. Мы также выявляем ключевые ограничения предобученных DiT в нулевой адаптации к задачам. Мы публикуем весь код, агентов, результаты и промежуточные выходы, чтобы способствовать дальнейшим исследованиям на https://github.com/ali-vilab/ChatDiT.

diffusion transformers generation

Эффективные политики диффузии с помощью смеси экспертов для многозадачного обучения

Политики диффузии стали широко использоваться в обучении подражанию, предлагая несколько привлекательных свойств, таких как генерация многомодального и разрывного поведения. Поскольку модели становятся больше, чтобы захватить более сложные возможности, их вычислительные требования увеличиваются, как показано недавними законами масштабирования. Поэтому продолжение работы с текущими архитектурами будет представлять собой вычислительное ограничение. Для решения этой проблемы мы предлагаем смесь экспертов по денойзингу (MoDE) в качестве новой политики для обучения подражанию. MoDE превосходит современные высококлассные политики диффузии на основе трансформеров, обеспечивая при этом эффективное масштабирование параметров за счет разреженных экспертов и маршрутизации, условной от шума, снижая как активные параметры на 40%, так и затраты на вывод на 90% за счет кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом самовнимания, условным от шума, что позволяет более эффективно проводить денойзинг на разных уровнях шума. MoDE достигает выдающейся производительности по 134 задачам в четырех известных бенчмарках по обучению подражанию (CALVIN и LIBERO). Примечательно, что, предварительно обучив MoDE на разнообразных данных о робототехнике, мы достигаем 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики диффузии на основе CNN, так и трансформеров в среднем на 57% по 4 бенчмаркам, используя при этом на 90% меньше FLOPs и меньше активных параметров по сравнению с архитектурами диффузионных трансформеров по умолчанию. Кроме того, мы проводим комплексные анализы компонентов MoDE, предоставляя полезные сведения для проектирования эффективных и масштабируемых архитектур трансформеров для политик диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.

diffusion imitation learning

VidTok: Современный видеотокенизатор для генерации и понимания видео

Кодирование видеоконтента в компактные латентные токены стало фундаментальным шагом в генерации и понимании видео, что обусловлено необходимостью устранения присущей избыточности в представлениях на уровне пикселей. В результате растет спрос на высокоэффективные, открытые видео-токенизаторы по мере того, как исследования, ориентированные на видео, приобретают популярность. Мы представляем VidTok, универсальный видео токенизатор, который демонстрирует передовые показатели как в непрерывной, так и в дискретной токенизации. VidTok включает в себя несколько ключевых усовершенствований по сравнению с существующими подходами: 1) архитектура модели, такая как свертки и модули вверх/вниз; 2) для устранения нестабильности обучения и коллапса кодовой книги, обычно связанных с традиционной векторной кватизацией (VQ), мы интегрируем конечную скалярную кватизацию (FSQ) в дискретную видео токенизацию; 3) улучшенные стратегии обучения, включая двухступенчатый процесс обучения и использование сниженных частот кадров. Интегрируя эти усовершенствования, VidTok достигает значительных улучшений по сравнению с существующими методами, демонстрируя превосходную производительность по множеству метрик, включая PSNR, SSIM, LPIPS и FVD, в стандартизированных условиях оценки.

encoding video tokenization

Графические пользовательские интерфейсы (GUI) и их агенты: Обзор современных исследований

Графические интерфейсы пользователей (GUI) на основе крупных базовых моделей стали трансформационным подходом для автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя человеческие действия, такие как щелчки мышью, набор текста и навигация по визуальным элементам на различных платформах. Учитывая растущий интерес и фундаментальную важность агентов GUI, мы предоставляем всеобъемлющий обзор, который классифицирует их контрольные точки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая описывает их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выделяем важные открытые вызовы и обсуждаем ключевые направления будущего. Наконец, эта работа служит основой для практиков и исследователей, чтобы получить интуитивное понимание текущего прогресса, техник, контрольных точек и критических открытых проблем, которые необходимо решить.

agents models interaction

AntiLeak-Bench: Автоматизированная система для предотвращения загрязнения данных в оценке LLM

Загрязнение данных затрудняет справедливую оценку LLM, вводя тестовые данные в обучающие наборы более новых моделей. Существующие исследования решают эту задачу, обновляя эталоны с использованием вновь собранных данных. Однако они не гарантируют оценку без загрязнения, так как вновь собранные данные могут содержать уже существующие знания, и их обновления эталонов зависят от интенсивного человеческого труда. Чтобы решить эти проблемы, мы в этой статье предлагаем AntiLeak-Bench, автоматизированную рамочную систему для тестирования на утечку. Вместо того чтобы просто использовать вновь собранные данные, мы создаем образцы с явно новыми знаниями, отсутствующими в обучающих наборах LLM, что тем самым гарантирует строгое отсутствие загрязнения при оценке. Мы также разрабатываем полностью автоматизированный рабочий процесс для построения и обновления нашего эталона без человеческого труда. Это значительно снижает затраты на поддержание эталона, чтобы удовлетворить потребности новых LLM. В ходе обширных экспериментов мы подчеркиваем, что загрязнение данных, вероятно, существует до времени ограничения LLM, и демонстрируем, что AntiLeak-Bench эффективно преодолевает эту проблему.

data contamination evaluation

RAG-RewardBench: Оценка моделей вознаграждения в контексте генерации с использованием дополненной выборки

Несмотря на значительный прогресс, достигнутый существующими языковыми моделями с дополненной извлечением (RALMs) в обеспечении надежных ответов и оснований на надежных источниках, они часто упускают из виду эффективное согласование с предпочтениями человека. В процессе согласования модели вознаграждения (RMs) выступают в качестве важного прокси для человеческих ценностей, чтобы направлять оптимизацию. Однако до сих пор неясно, как оценить и выбрать надежную RM для согласования предпочтений в RALMs. В этой связи мы предлагаем RAG-RewardBench, первую оценочную таблицу для оценки RMs в условиях RAG. Сначала мы разрабатываем четыре ключевых и сложных сценария, специфичных для RAG, для оценки RMs, включая многоступенчатое рассуждение, детальную цитату, соответствующее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть извлекателей и 24 RALMs, чтобы увеличить разнообразие источников данных. Наконец, мы используем подход LLM-as-a-judge для повышения эффективности и результативности аннотирования предпочтений, демонстрируя сильную корреляцию с аннотациями человека. На основе RAG-RewardBench мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также обнаруживаем, что уже обученные RALMs почти не показывают улучшения в согласовании предпочтений, подчеркивая необходимость перехода к обучению, основанному на предпочтениях. Мы публикуем нашу оценочную таблицу и код в открытом доступе по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих исследований.

alignment benchmark retrieval

Mix-LN: Раскрытие потенциала глубоких слоев путем комбинирования Pre-LN и Post-LN

"Крупные языковые модели (LLM) достиглиRemarkable успеха, однако недавние данные показывают, что их более глубокие слои часто вносят минимальный вклад и могут быть обрезаны без ущерба для общей производительности. Некоторые рассматривают это как возможность для сжатия модели, однако мы рассматриваем это как недоработку в обучении, коренящуюся в широком использовании предварительной нормализации слоев (Pre-LN). Мы показываем, что Pre-LN, часто используемая в моделях, таких как GPT и LLaMA, приводит к уменьшению норм градиентов в более глубоких слоях, снижая их эффективность. В отличие от этого, пост-слойная нормализация (Post-LN) сохраняет большие нормы градиентов в глубоких слоях, но страдает от исчезающих градиентов в более ранних слоях. Чтобы решить эту проблему, мы представляем Mix-LN, новую технику нормализации, которая объединяет сильные стороны Pre-LN и Post-LN в рамках одной модели. Mix-LN применяет Post-LN к более ранним слоям и Pre-LN к более глубоким слоям, обеспечивая более равномерные градиенты между слоями. Это позволяет всем частям сети, как поверхностным, так и глубоким слоям, эффективно делать вклад в обучение. Обширные эксперименты с различными размерами модели от 70M до 7B показывают, что Mix-LN постоянно превосходит как Pre-LN, так и Post-LN, способствуя более сбалансированным, здоровым нормам градиентов по всей сети и улучшая общее качество предобучения LLM. Более того, мы демонстрируем, что модели, предварительно обученные с Mix-LN, лучше учатся по сравнению с теми, которые используют Pre-LN или Post-LN в процессе контролируемой дообучения (SFT) и обучения с подкреплением на основе обратной связи от людей (RLHF), подчеркивая критическую важность качественных глубоких слоев. Эффективно устраняя неэффективность глубоких слоев в современных LLM, Mix-LN раскрывает их потенциал, повышая мощность модели без увеличения ее размера. Наш код доступен по адресу https://github.com/pixeli99/MixLN."

normalization gradient compression

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

В многомодальных больших языковых моделях (MLLM) широко используются визуальные трансформеры (ViT) для визуального кодирования. Однако их производительность при решении универсальных задач MLLM оставляет желать лучшего. Мы связываем это с нехваткой информации из разнообразных визуальных уровней, что мешает согласованию с различной семантической гранулярностью, необходимой для генерации языка. Чтобы решить эту проблему, мы представляем LLaVA-UHD v2, усовершенствованную MLLM, сосредоточенную вокруг иерархического оконного трансформера, который позволяет захватывать разнообразную визуальную гранулярность, конструируя и интегрируя пирамиду признаков высокого разрешения. В качестве проектировщика зрения и языка трансформер Hiwin включает два основных модуля: (i) обратная пирамида признаков, построенная с помощью процесса увеличения признаков, производного от ViT, с использованием высокочастотных деталей из пирамиды изображений, и (ii) иерархическое внимание окон, сосредоточенное на наборе ключевых признаков выборки в окнах разных масштабов, чтобы конденсировать многоуровневые карты признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных контрольных точках. Особенно примечательно, что наш дизайн обеспечивает среднее увеличение на 3,7% по 14 контрольным показателям по сравнению с базовым методом, в частности, на 9,3% на DocVQA. Мы сделали все данные, контрольную точку модели и код общедоступными, чтобы облегчить будущие исследования.

mllm vit transformer

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

prompts models depth

CAD-Recode: Обратная инженерия CAD-кода из облаков точек

Модели, созданные с помощью компьютерногоAided Design (CAD), обычно строятся путем последовательного рисования параметрических скетчей и применения операций CAD для получения 3D модели. Проблема обратного инжиниринга 3D CAD состоит в восстановлении последовательностей скетчей и операций CAD из 3D представлений, таких как облака точек. В этой работе мы обращаемся к этой задаче через новые вклады на трех уровнях: представление последовательностей CAD, проектирование сети и набор данных. В частности, мы представляем последовательности скетч-экструзий CAD как код Python. Предложенный CAD-Recode преобразует облако точек в код Python, который, когда выполняется, восстанавливает модель CAD. Используя преимущества открытости предобученных больших языковых моделей (LLMs) к коду Python, мы используем относительно небольшую LLM в качестве декодера для CAD-Recode и комбинируем ее с легким проектором облаков точек. CAD-Recode обучается исключительно на предложенном синтетическом наборе данных из одного миллиона разнообразных последовательностей CAD. CAD-Recode значительно превосходит существующие методы по трем наборам данных, требуя при этом меньшее количество входных точек. Примечательно, что он достигает в 10 раз меньшего среднего расстояния Шамфера, чем самые современные методы на наборах данных DeepCAD и Fusion360. Кроме того, мы показываем, что наш вывод кода Python CAD интерпретируем LLMs с торговых полок, что позволяет редактировать CAD и отвечать на специфические для CAD вопросы на основе облаков точек.

cad 3d model

AnySat: Модель наблюдения за Землёй для любых разрешений, масштабов и модальностей

Геопространственные модели должны адаптироваться к разнообразию данных дистанционного зондирования Земли с точки зрения разрешений, масштабов и модальностей. Однако существующие подходы ожидают фиксированных входных конфигураций, что ограничивает их практическое применение. Мы предлагаем AnySat, мультимодель, основанную на архитектуре совместного встраивания предсказания (JEPA) и разрешающем пространственном кодере, что позволяет нам обучать одну модель на высокогетерогенных данных в самонаправленном режиме. Чтобы продемонстрировать преимущества этого унифицированного подхода, мы подготовили GeoPlex, сборник из 5 мультимодальных наборов данных с различными характеристиками и 11 различными датчиками. Затем мы одновременно обучаем одну мощную модель на этих разнообразных наборах данных. После донастройки мы получаем лучшие или близкие к современным достижениям результаты на наборах данных GeoPlex и 4 дополнительных для 5 задач мониторинга окружающей среды: картирование земельного покрова, идентификация видов деревьев, классификация типов культур, обнаружение изменений и сегментация наводнений. Код и модели доступны по адресу https://github.com/gastruc/AnySat.

geospatial multimodal embedding

TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях

Мы взаимодействуем с компьютерами на ежедневной основе, будь то в повседневной жизни или на работе, и многие аспекты работы можно выполнять полностью с помощью доступа к компьютеру и интернету. В то же время, благодаря улучшениям в области больших языковых моделей (LLM) также произошло быстрое развитие агентов ИИ, которые взаимодействуют с окружающей средой и вносят изменения в нее. Но насколько эффективно ИИ-агенты помогают ускорять или даже автономно выполнять рабочие задачи? Ответ на этот вопрос имеет важные последствия как для промышленных компаний, стремящихся интегрировать ИИ в свои рабочие процессы, так и для экономической политики, чтобы понять, как внедрение ИИ может повлиять на рынок труда. Для оценки прогресса этих LLM-агентов в выполнении реальных профессиональных задач в данной работе мы представляем TheAgentCompany, настраиваемый бенчмарк для оценки ИИ-агентов, которые взаимодействуют с окружающим миром аналогично цифровым работникам: просматривая веб, пишущая код, запускающие программы и общающиеся с другими коллегами. Мы создаем замкнутую среду с внутренними веб-сайтами и данными, напоминающую среду небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками такой компании. Мы тестируем базовых агентов, использующих как закрытые, так и открытые языковые модели (LM), и выясняем, что с помощью самого конкурентоспособного агента 24% задач могут быть выполнены автономно. Это рисует нюансированную картину автоматизации задач с помощью LM-агентов: в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи на длительный срок все еще выходят за рамки возможностей текущих систем.

automation agents models

FashionComposer: Генерация Композиционных Модных Изображений

Мы представляем FashionComposer для генерации композиционных модных изображений. В отличие от прежних методов, FashionComposer обладает высокой гибкостью. Он принимает многомодульный ввод (т.е. текстовый запрос, параметрическую модель человека, изображение одежды и изображение лица) и поддерживает персонализацию внешнего вида, позы и фигуры человека, а также назначение нескольких предметов одежды за один проход. Для достижения этого мы сначала развиваем универсальную структуру, способную обрабатывать различные входные модули. Мы строим масштабированные учебные данные, чтобы улучшить надежные композиционные способности модели. Чтобы бесшовно интегрировать несколько изображений-ссылок (одежды и лиц), мы организуем эти ссылки в одном изображении как «библиотеку активов» и используем UNet ссылок для извлечения внешних характеристик. Чтобы ввести внешние характеристики в правильные пиксели в сгенерированном результате, мы предлагаем привязку внимания к субъекту. Она связывает внешние характеристики из разных «активов» с соответствующими текстовыми характеристиками. Таким образом, модель может понимать каждый актив в соответствии с их семантикой, поддерживая произвольные числа и типы изображений-ссылок. Как комплексное решение, FashionComposer также поддерживает многие другие приложения, такие как генерация альбома человека, различные виртуальные задания по примерке и т.д.

generation modality features

Обучение универсального управления позами гуманоидных роботов на основе видео

Масштабируемое обучение гуманоидных роботов является ключевым для их развертывания в реальных приложениях. Хотя традиционные подходы в основном полагаются на обучение с подкреплением или телеуправление для достижения полного контроля над телом, они часто ограничены разнообразием симулированных сред и высокими затратами на сбор демонстраций. Напротив, видеозаписи людей являются повсеместными и представляют собой неиспользуемый источник семантической и движенческой информации, который может значительно улучшить способности обобщения гуманоидных роботов. Эта статья представляет Humanoid-X, крупномасштабный набор данных, состоящий из более чем 20 миллионов поз гуманоидных роботов с соответствующими текстовыми описаниями движений, разработанный для того, чтобы использовать эти обильные данные. Humanoid-X создается через комплексный процесс: добыча данных из Интернета, генерация видеозаголовков, перенаправление движений людей на гуманоидных роботов и обучение политике для развертывания в реальном мире. С помощью Humanoid-X мы дополнительно обучаем большую гуманоидную модель, UH-1, которая принимает текстовые инструкции в качестве входных данных и выдает соответствующие действия для управления гуманоидным роботом. Обширные симулированные и реальные эксперименты подтверждают, что наш масштабируемый подход к обучению приводит к превосходному обобщению в текстовом управлении гуманоидом, что является значительным шагом к адаптивным гуманоидным роботам, готовым к реальному миру.

scalability generalization dataset

AniDoc: Упрощение создания анимации с помощью ИИ

Производство 2D-анимации следует стандартному рабочему процессу в отрасли, включая четыре основных этапа: разработку персонажей, анимацию основных кадров, промежуточную анимацию и раскраску. Наша работа сосредоточена на снижении трудозатрат в указанном процессе за счет использования потенциала все более мощного генеративного ИИ. Используя модели видеодифузии в качестве основы, AniDoc выступает в качестве инструмента для цветового обозначения видеолинейного искусства, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с заданными характеристиками персонажа. Наша модель использует сопоставление соответствия в качестве явного руководства, что обеспечивает высокую устойчивость к изменениям (например, в позе) между эталонным персонажем и каждым кадром линейного искусства. Кроме того, наша модель может даже автоматизировать процесс промежуточной анимации, что позволяет пользователям легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальные и конечные эскизы. Наш код доступен по адресу: https://yihao-meng.github.io/AniDoc_demo.

animation generative ai