Ай Дайджест - категория zero-shot

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

2024-12-18zero-shot customization alignment

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

2024-12-09imitation language unsupervised

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

2024-11-26zero-shot alignment diptych

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

2024-11-26benchmark zero-shot generalization

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей в 3D является важной и сложной задачей в области 3D восприятия, играющей ключевую роль в приложениях, таких как робототехника, создание 3D и редактирование 3D. Современные методы используют мощные модели распознавания языка и зрения (VLMs) для дистилляции знаний из 2D в 3D, достигая нулевого этапа сегментации частей в 3D. Однако эти методы ограничены зависимостью от текстовых запросов, что ограничивает их масштабируемость для работы с большими неразмеченными наборами данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую рамку для нулевого этапа сегментации частей 3D объектов, которая сегментирует любой 3D объект на семантические части с различной детализацией, не требуя предопределенных наборов меток частей в виде текстовых запросов. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции 3D извлечения признаков, что позволяет масштабировать на большие неразмеченные 3D наборы данных для изучения богатых 3D приоритетов. Для гибкости мы дистиллируем 3D признаки, зависящие от масштаба, осведомленные о частях, для сегментации частей 3D с различной детализацией. Получив сегментированные части из этих признаков, мы используем VLMs для присвоения семантических меток каждой части на основе мультивью рендеринга. В сравнении с предыдущими методами, наш SAMPart3D может масштабироваться на недавние крупномасштабные наборы данных 3D объектов, такие как Objaverse, и обрабатывать сложные, необычные объекты. Кроме того, мы вносим вклад в создание нового эталона для сегментации частей 3D, чтобы решить проблему недостатка разнообразия и сложности объектов и частей в существующих эталонах. Эксперименты показывают, что наш SAMPart3D значительно превосходит существующие методы нулевого этапа сегментации частей 3D и может способствовать различным приложениям, таким как редактирование на уровне частей и интерактивная сегментация.

2024-11-13scalability zero-shot vision

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

2024-11-08zero-shot control diffusion