Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "interaction"

Графические пользовательские интерфейсы (GUI) и их агенты: Обзор современных исследований

Графические интерфейсы пользователей (GUI) на основе крупных базовых моделей стали трансформационным подходом для автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя человеческие действия, такие как щелчки мышью, набор текста и навигация по визуальным элементам на различных платформах. Учитывая растущий интерес и фундаментальную важность агентов GUI, мы предоставляем всеобъемлющий обзор, который классифицирует их контрольные точки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая описывает их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выделяем важные открытые вызовы и обсуждаем ключевые направления будущего. Наконец, эта работа служит основой для практиков и исследователей, чтобы получить интуитивное понимание текущего прогресса, техник, контрольных точек и критических открытых проблем, которые необходимо решить.

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

Реформулирование взаимодействия в диалоге с использованием тонкой элементной модели

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека и машины, что привело к накоплению огромного количества журналов бесед и увеличению спроса на генерацию диалога. Цикл жизни разговора охватывает Прелюдию, Интерлокацию и Эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогом, отсутствуют эталоны, охватывающие всеобъемлющие элементы диалога, что затрудняет точное моделирование и систематическую оценку. Чтобы устранить этот разрыв, мы представляем инновационную исследовательскую задачу Моделирования Элементов Диалога, включая Осведомленность об Элементах и Взаимодействие Агентов Диалога, и предлагаем новый эталон DEMO, предназначенный для комплексного моделирования и оценки диалога. Вдохновленные обучением подражанию, мы также создаем агента, обладающего опытной способностью моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще демонстрируют значительный потенциал для улучшения, и наш агент DEMO имеет высокую производительность как в доменных, так и в недоменных задачах.

SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

Человеческие существа - социальные животные. Как наделить 3D автономных персонажей подобным социальным интеллектом, способным воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной задачей. В этой статье мы представляем SOLAMI, первую модельную структуру от начала до конца для социального видения-языка-действия (VLA) для погружающего взаимодействия с 3D автономными персонажами. В частности, SOLAMI строит 3D автономных персонажей с трех аспектов: (1) Архитектура социального VLA: Мы предлагаем единый социальный VLA фреймворк для генерации мультимодальных ответов (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социальных взаимодействий, сгенерированный автоматическим конвейером, использующим только существующие наборы данных движения для решения проблемы нехватки данных. (3) Погружающий VR интерфейс: Мы разрабатываем VR интерфейс, который позволяет пользователям погружающе взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и исследования пользователей показывают, что наша структура приводит к более точным и естественным реакциям персонажей (как в речи, так и в движении), которые соответствуют ожиданиям пользователей с более низкой задержкой.

Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

Существующие задачи навигации по целям экземпляров, основанные на естественном языке, предполагают, что пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и неоднозначными. Чтобы преодолеть этот разрыв, мы предлагаем новую задачу — Совместная навигация по экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, свободных от шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод — Взаимодействие агента и пользователя с Осознанием Неопределенности (AIUTA), использующий восприятие возможностей Моделей Визуального Языка (VLM) и возможности Больших Языковых Моделей (LLM). Сначала, после обнаружения объекта, модель Само-Вопросителя инициирует самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности уменьшает неаккуратное восприятие VLM. Затем модуль Триггер Взаимодействия решает, следует ли задать вопрос пользователю, продолжать или остановить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, эталон, поддерживающий как реальных, так и смоделированных людей. AIUTA демонстрирует конкурентоспособные результаты в навигации по экземплярам по сравнению с передовыми методами, проявляя большую гибкость в обработке пользовательских вводов.

SketchAgent: Language-Driven Sequential Sketch Generation

Эскизирование служит универсальным инструментом для внешнего выражения идей, позволяя быстро исследовать и визуально коммуницировать через различные дисциплины. Хотя искусственные системы привели к значительным достижениям в создании контента и взаимодействии человека с компьютером, задача по захвату динамичной и абстрактной природы человеческих эскизов остается сложной. В данной работе мы представляем SketchAgent — метод генерации последовательных эскизов, управляемый языком, который позволяет пользователям создавать, изменять и уточнять эскизы через динамичные, разговорные взаимодействия. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и богатые предварительные знания готовых мультимодальных крупных языковых моделей (LLM). Мы представляем интуитивно понятный язык эскизирования, который вводится в модель через примеры в контексте, позволяя ей "рисовать" с помощью строковых действий. Эти действия преобразуются в векторную графику и затем отображаются для создания эскиза на пиксельном холсте, который можно снова использовать для дальнейших задач. Рисуя мазок за мазком, наш агент улавливает развивающиеся, динамичные качества, присущие эскизированию. Мы демонстрируем, что SketchAgent способен генерировать эскизы из разнообразных запросов, участвовать в диалоговом рисовании и значимо сотрудничать с пользователями.

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

Исследование дизайна пользовательских интерфейсов и методов взаимодействия в приложениях с генеративным ИИ

Применение генеративного ИИ стало чрезвычайно впечатляющим, и взаимодействие между пользователями и ИИ стало еще более значимым. Современная литература по взаимодействию человека с ИИ рассматривает в общем виде, как люди взаимодействуют с генеративным ИИ, однако она не углубляется в детали по поводу дизайна пользовательского интерфейса и паттернов, используемых для создания этих приложений. Поэтому мы представляем обзор, который всесторонне освещает таксономии взаимодействия человека с ИИ и паттерны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных актуальных случаев использования. Мы в основном сосредотачиваемся на взаимодействиях, инициированных пользователем, изучая те, которые начинаются с действий пользователя и не включают в себя никакие неявные сигналы с его стороны. С помощью этого обзора мы стремимся создать справочник различных паттернов пользовательского взаимодействия, который может служить ориентиром как для дизайнеров, так и для разработчиков. В процессе этого мы также стремимся снизить порог входа для тех, кто хочет узнать больше о дизайне приложений генеративного ИИ.