Ай Дайджест

MolReFlect: В поисках точных соответствий между молекулами и текстами

Открытие молекул является ключевой областью исследований, влияющей на все, начиная от лекарств, которые мы принимаем, до материалов, которые мы используем. В последнее время Большие Языковые Модели (LLMs) широко используются для понимания и генерации молекул, однако согласование между молекулами и их соответствующими подписями остается значительным вызовом. Ранние попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, упуская из виду детальные соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые критически важны для точных и объяснимых прогнозов. В данном случае, мы представляем MolReFlect, новую учитель-ученик схему, разработанную для контекстного выполнения молекулярно-описательных соответствий на тонком уровне. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий путем прямого извлечения ключевых фраз из подписей молекул или строк SMILES и их сопоставления с соответствующими подструктурами или характеристиками. Для уточнения этих соответствий мы предлагаем Избирательное Отражение в Контексте, которое извлекает предыдущие результаты извлечения в качестве контекстных примеров для учительской LLM для отражения, и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. В заключение, мы улучшаем процесс обучения ученической LLM через Настройку Молекул в Контексте Цепи Мысли, интегрируя тонкие соответствия и процессы рассуждений в формате Цепи Мысли. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, таким как Mistral-7B, значительно превзойти предыдущие базовые показатели, достигая передовых результатов на датасете ChEBI-20. Это достижение не только улучшает генеративные способности LLM в задаче перевода молекула-подпись, но и способствует созданию более объяснимой системы.

llms alignment molecule

TEXGen: Генеративная модель диффузии для текстур сеток

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D активов, мало исследований посвящено изучению непосредственно в пространстве текстур, особенно на больших наборах данных. В этой работе мы отходим от традиционного подхода, который полагается на предварительно обученные 2D модели диффузии для оптимизации текстур 3D в режиме тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в самом UV-пространстве текстур. Впервые мы обучаем большую модель диффузии, способную напрямую генерировать текстурные карты высокого разрешения в режиме прямого прохода. Для обеспечения эффективного обучения в UV-пространстве высокого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свёртки на UV-картах с слоями внимания на облаках точек. Используя эту архитектурную конструкцию, мы обучаем модель диффузии с 700 миллионами параметров, которая может генерировать UV-текстурные карты, руководствуясь текстовыми запросами и изображениями с одного ракурса. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая текстово-направленное заполнение текстур, заполнение текстур с разреженными видами и синтез текстур, управляемый текстом. Страница проекта доступна по адресу http://cvmi-lab.github.io/TEXGen/.

texture diffusion learning

EfficientViM: Эффективная архитектура для компьютерного зрения

Для развертывания нейронных сетей в условиях ограниченных ресурсов ранее были разработаны легкие архитектуры с использованием свертки и внимания для захвата локальных и глобальных зависимостей соответственно. В последнее время модель пространства состояний стала эффективным средством глобального взаимодействия токенов благодаря своей благоприятной линейной вычислительной стоимости в отношении количества токенов. Тем не менее, эффективные визуальные основы, построенные с использованием SSM, были менее исследованы. В этой статье мы представляем Efficient Vision Mamba (EfficientViM) — новую архитектуру, основанную на смешивателе скрытых состояний с двойственностью состояния пространства (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD, чтобы включить операцию смешивания каналов в скрытых состояниях. Дополнительно мы предлагаем многоуровневую фузию скрытых состояний, чтобы дополнительно усилить представительную способность скрытых состояний, и предоставляем дизайн, смягчающий узкие места, вызванные операциями с памятью. В результате семейство EfficientViM достигает нового уровня скорости и точности на ImageNet-1k, предлагая до 0,7% улучшение производительности по сравнению со второй моделью SHViT с более быстрой скоростью. Более того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или применении обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.

neural architecture convolution

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

agi mllm evaluation

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

vision language model

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

model video retrieval

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

detection benchmark evaluation

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

diffusion synthetic training

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

diffusion editing video

SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от крупных языковых моделей (LLMs) до крупных мультимодальных моделей (LMMs) и генерации двумерного контента, приближаясь к достижению искусственного общего интеллекта (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию трехмерных объектов остается в значительной степени неизведанным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный трехмерный векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов с целью эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего одиночного токена, SAR3D значительно сокращает время генерации, позволяя создавать трехмерные объекты всего за 0.82 секунды на GPU A6000. Кроме того, учитывая, что токены обогащены иерархической информацией, учитывающей трехмерность, мы дообучаем предобученную LLM на этих токенах, что позволяет многомодальному пониманию трехмерного контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D объектов как по скорости, так и по качеству, а также позволяет LLM интерпретировать и описывать трехмерные модели комплексно.

autoregression vqvae multiscale

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

attention transformer inference

DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

Вот перевод текста на русский язык: --- **Тема: Направленное восстановление изображений** выдвинуто в качестве популярной задачи в области редактирования изображений на фоне последних достижений в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с поддержанием возможности редактирования вставленных объектов. В ответ на это, данная статья представляет **DreamMix** — генеративную модель на основе диффузии, которая способна вставлять целевые объекты в заданные сцены по указанным пользователем местам, одновременно позволяя произвольные текстово-направленные изменения их атрибутов. В частности, мы используем продвинутые базовые модели восстановления изображений и вводим фреймворк локально-глобального восстановления для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Дополнительно, мы предлагаем механизм декомпозиции атрибутов (ADM) и модуль подстановки текстовых атрибутов (TAS), чтобы улучшить разнообразие и дискриминативную способность текстового руководства по атрибутам. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и восстановление малых объектов. Наш код доступен в открытом доступе по адресу: https://github.com/mycfhs/DreamMix.

inpainting diffusion generative

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

diffusion pose video

Генерация видео с сохранением идентичности на основе текста: концепция ConsisID

Генерация текстов в видео с сохранением идентичности (IPT2V) нацелена на создание видеороликов высокой четкости с последовательной человеческой идентичностью. Это важная задача в генерации видео, но остается нерешенной проблемой для генеративных моделей. Эта статья продвигает технические границы IPT2V в двух направлениях, которые не были рассмотрены в литературе: (1) Пайплайн без необходимости настройки без утомительной подгонки, и (2) Частотно-осознанная эвристическая схема управления, сохраняющая идентичность, основанная на DiT. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность в сгенерированном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где характеристики лица могут быть разложены на низкочастотные глобальные особенности и высокочастотные внутренние особенности. Во-первых, с точки зрения низкой частоты мы представляем глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентное пространство, генерируя особенности, обогащенные информацией низкой частоты. Эти характеристики затем интегрируются в поверхностные слои сети, чтобы облегчить проблемы обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты мы разрабатываем локальный экстрактор лица, чтобы захватить детали высокой частоты и внедрить их в блоки трансформера, улучшая способность модели сохранять детализированные особенности. Мы предлагаем иерархическую стратегию обучения для использования частотной информации для сохранения идентичности, преобразовывая обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты демонстрируют, что наша частотно-осознанная эвристическая схема обеспечивает оптимальное решение для моделей на основе DiT. Благодаря этой схеме, наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

generation identity frequency

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

benchmark evaluation multimodal

Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

Разработка графических интерфейсов пользователя (GUI) для помощников обещает значительные перспективы для повышения продуктивности рабочих процессов человека. Хотя большинство агентов основаны на языковых технологиях и используют закрытые API с богатой текстовой мета-информацией (например, HTML или дерево доступности), они проявляют ограничения в восприятии визуалов интерфейса так, как это делают люди, что подчеркивает необходимость в агентах, способных визуально воспринимать GUI. В данной работе мы разрабатываем модель видео-языковых действий в цифровом мире, называемую ShowUI, которая включает следующие инновации: (i) Выбор визуальных токенов, руководимый UI, для снижения вычислительных затрат путем формулирования скриншотов в виде связанного графа UI, адаптивно выявляя их избыточные отношения и используя их в качестве критериев для выбора токенов в блоках само-внимания; (ii) Потоковое смешивание видео, языка и действий, которое гибко объединяет разнообразные потребности в задачах GUI, позволяя эффективно управлять историей визуальных действий при навигации или сопоставлении последовательностей запросов-действий на каждый скриншот для повышения эффективности обучения; (iii) Создание малых, но качественных наборов данных с инструкциями для GUI путем тщательного отбора данных и применения стратегии пересэмплирования для решения проблемы значительного дисбаланса типов данных. С помощью вышеперечисленных компонентов, ShowUI, легковесная модель на 2 миллиарда параметров, использующая 256K данных, достигает высокой точности в 75.1% при нулевом тестировании на привязке к скриншотам. Ее выбор токенов, руководимый UI, дополнительно сокращает на 33% избыточные визуальные токены во время обучения и ускоряет производительность в 1.4 раза. Эксперименты по навигации в средах web Mind2Web, мобильного AITW и онлайн MiniWob подчеркивают эффективность и потенциал нашей модели для развития визуальных агентов GUI. Модели доступны по адресу https://github.com/showlab/ShowUI.

gui vision language

Изучение 3D-представлений с помощью процедурных 3D-программ

Самонадзорное обучение (self-supervised learning) выделяется как перспективный метод для получения переносимых 3D представлений из неразмеченных облаков 3D точек. В отличие от 2D изображений, которые широко доступны, получение 3D активов требует специализированных знаний или профессионального оборудования для 3D сканирования, что затрудняет масштабирование и вызывает вопросы авторского права. Чтобы решить эти проблемы, мы предлагаем обучение 3D представлений на основе процедурных 3D программ, которые автоматически генерируют 3D формы с использованием простых примитивов и аугментаций. Замечательно, что несмотря на отсутствие семантического содержания, 3D представления, обученные на этом синтезированном наборе данных, показывают результаты, сравнимые с передовыми представлениями, обученными на семантически узнаваемых 3D моделях (например, самолетах), в различных задачах 3D, включая классификацию форм, сегментацию частей и заполнение маскированных облаков точек. Наш анализ также указывает, что текущие методы самонадзорного обучения в основном захватывают геометрические структуры, а не высокие семантические уровни.

self-supervised transferable representations

SketchAgent: Language-Driven Sequential Sketch Generation

Эскизирование служит универсальным инструментом для внешнего выражения идей, позволяя быстро исследовать и визуально коммуницировать через различные дисциплины. Хотя искусственные системы привели к значительным достижениям в создании контента и взаимодействии человека с компьютером, задача по захвату динамичной и абстрактной природы человеческих эскизов остается сложной. В данной работе мы представляем SketchAgent — метод генерации последовательных эскизов, управляемый языком, который позволяет пользователям создавать, изменять и уточнять эскизы через динамичные, разговорные взаимодействия. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и богатые предварительные знания готовых мультимодальных крупных языковых моделей (LLM). Мы представляем интуитивно понятный язык эскизирования, который вводится в модель через примеры в контексте, позволяя ей "рисовать" с помощью строковых действий. Эти действия преобразуются в векторную графику и затем отображаются для создания эскиза на пиксельном холсте, который можно снова использовать для дальнейших задач. Рисуя мазок за мазком, наш агент улавливает развивающиеся, динамичные качества, присущие эскизированию. Мы демонстрируем, что SketchAgent способен генерировать эскизы из разнообразных запросов, участвовать в диалоговом рисовании и значимо сотрудничать с пользователями.

sketching language model

Переосмысление сокращения токенов в MLLMs: К единому подходу для ускорения без обучения

Для ускорения инференса сложных мультимодальных крупных языковых моделей (MLLMs) данное исследование переосмысливает текущий ландшафт исследований по сокращению токенов без обучения. Мы с сожалением отмечаем, что ключевые компоненты существующих методов тесно переплетены, и их взаимосвязи и эффекты остаются неясными для сравнения, переноса и расширения. Поэтому мы предлагаем унифицированный подход "фильтровать-связывать-сжимать", который разделяет процесс сокращения токенов на три отдельные стадии в рамках конвейера, сохраняя при этом последовательные цели и элементы дизайна, но позволяя уникальные реализации. Кроме того, мы объясняем популярные работы и включаем их в наш подход, чтобы продемонстрировать его универсальность. Наконец, мы предлагаем набор методов, основанных на этом подходе, которые находят баланс между скоростью и точностью на разных этапах инференса. Результаты экспериментов на 10 бенчмарках показывают, что наши методы могут достигать сокращения FLOPs до 82.4% с минимальным влиянием на производительность, одновременно превосходя современные методы без обучения. Страница нашего проекта находится по адресу https://ficoco-accelerate.github.io/.

inference training token

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

quantization scaling training

ROICtrl: Усовершенствование управления экземплярами в визуальной генерации

Естественный язык часто сталкивается с трудностями в точной ассоциации позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями с участием только нескольких доминирующих экземпляров. Для решения этой проблемы в данной работе улучшены диффузионные модели за счет введения контроля региональных экземпляров, где каждый экземпляр управляется ограничивающей рамкой, сопоставленной со свободной формой подписи. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения регионов интересов (ROI), что приводит либо к неточной инъекции координат, либо к большим вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное манипулирование ROI на картах признаков высокого разрешения для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных диффузионных моделей, который позволяет точно контролировать региональные экземпляры. ROICtrl совместим с дообученными диффузионными моделями сообщества, а также с существующими пространственными дополнениями (например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в контроле региональных экземпляров, одновременно значительно уменьшая вычислительные затраты.

diffusion models instances