Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Исследование дизайна пользовательских интерфейсов и методов взаимодействия в приложениях с генеративным ИИ

Генеративный искусственный интеллект (ИИ) приобретает все большее значение в различных областях, кардинально меняя подходы к взаимодействию человека и машины. В последние годы, особенно с развитием крупных языковых моделей (LLM) и других генеративных моделей, взаимодействие между пользователями и ИИ стало предметом активного изучения в литературе по взаимодействию человека и компьютера (HCI). Однако, несмотря на обширные исследования, существует недостаток конкретики в описании пользовательских интерфейсов (UI) и паттернов взаимодействия, используемых для создания этих приложений. В этой статье мы представим обзор, который систематизирует способы взаимодействия человека с ИИ, фокусируясь на пользовательских интерфейсах и паттернах взаимодействия, направленных на удовлетворение разнообразных потребностей.

Основные вклады

  1. Формализация ключевых понятий и определений: Мы определим и разграничим ключевые термины, связанные с UI и взаимодействием для приложений генеративного ИИ, с акцентом на пользовательски-руководимые взаимодействия (user-guided interactions).

  2. Таксономия методов взаимодействия с UI: Мы представим таксономию, классифицирующую и обобщающую общие паттерны взаимодействия с UI, используемые в генеративных системах ИИ.

  3. Таксономия макетов пользовательских интерфейсов: Мы обсудим ключевые структуры UI, которые используются в различных генеративных приложениях.

  4. Таксономия уровней вовлеченности человека и ИИ: Мы исследуем интенсивность и формы взаимодействия между человеком и ИИ, представляя новые уровни вовлеченности.

  5. Таксономия приложений и случаев использования: Мы выделим и классифицируем различные приложения генеративного ИИ, показывая, какие UI и методы взаимодействия наиболее подходят для различных сценариев.

  6. Обзор открытых проблем и вызовов: Мы обсудим проблемы и направления для будущих исследований, касающиеся доступности, роста и этических аспектов генеративного ИИ.

Область охвата

Этот обзор сосредоточен на пользовательски-руководимых методах взаимодействия для приложений генеративного ИИ, которые иногда называют техниками управляемости (controllability techniques). Мы не рассматриваем методы взаимодействия, которые не являются пользовательски-руководимыми, а также методы, использующие обратную связь между пользователем и системой.

Фон и предварительные сведения

Пользовательски-руководимые взаимодействия

Пользовательски-руководимые взаимодействия — это явные действия, инициированные пользователем, которые влияют на работу системы. В контексте генеративного ИИ это могут быть любые действия, от запросов (prompting) к системе для выполнения определенных задач до выбора и манипулирования объектами в системе или настройки параметров для создания специфического выхода. Примером может служить пользователь, который пишет запрос для генерации изображения, затем корректирует параметры или выбирает определенные части изображения для дальнейшего манипулирования. Эти взаимодействия отличаются от неявных взаимодействий, где система реагирует на поведение пользователя без явных команд.

Запросы и входные данные

Определение 1 (Входные данные): Входные данные — это информация, загружаемая пользователем в систему, на которой затем основываются запросы.

Определение 2 (Запросы): Запросы — это пользовательски-руководимые взаимодействия, при которых пользователь просит генеративную систему выполнить определенную задачу. Запросы могут быть текстовыми, визуальными, аудиальными или мультимодальными.

Модальности входных данных

Мы рассмотрим различные модальности входных данных, которые пользователи могут использовать при взаимодействии с генеративными системами ИИ:

  • Текстовые данные: Текстовые данные включают в себя любую информацию, представленную в виде текста, будь то структурированный или неструктурированный текст, который используется для генерации или обработки.

  • Визуальные данные: Визуальные данные могут быть изображениями, видео или визуальными взаимодействиями, такими как жесты в виртуальной реальности.

  • Аудиальные данные: Аудиальные данные включают в себя речь и другие аудиозаписи, которые могут быть использованы для генерации или обработки аудиоконтента.

Методы пользовательски-руководимого взаимодействия

Запросы

Запросы являются одним из основных способов взаимодействия пользователя с генеративной системой ИИ. Они могут быть:

  • Текстовыми запросами: Самый распространенный способ взаимодействия, где пользователь использует текст для инструкций системы.

  • Визуальными запросами: Использование визуальных средств, таких как жесты или манипуляции объектами, для запроса выполнения задачи.

  • Аудиальными запросами: Запросы через речь или другие аудиосигналы.

  • Мультимодальными запросами: Комбинация различных модальностей для создания более сложных запросов.

Техники выбора

Техники выбора включают различные способы выделения или выбора элементов UI для дальнейшего взаимодействия:

  • Одиночный выбор: Выбор одного элемента для взаимодействия.

  • Множественный выбор: Выбор нескольких элементов одновременно.

  • Лассо и кисть: Использование инструментов для выделения областей на изображении или в тексте.

Манипуляция системой и параметрами

Эти взаимодействия позволяют пользователю настраивать параметры системы для создания персонализированных выходных данных:

  • Меню: Использование меню для выбора предустановленных параметров или ввода собственных.

  • Слайдеры: Интерфейсные элементы для регулировки параметров системы.

  • Явная обратная связь: Пользователь может давать обратную связь, которая влияет на параметры системы.

Манипуляция и трансформация объектов

Эти взаимодействия включают в себя прямое изменение, настройку и трансформацию UI элементов:

  • Перетаскивание и сброс: Перемещение элементов для изменения их положения или функции.

  • Соединение: Соединение элементов для создания новых взаимодействий или функций.

  • Изменение размера: Изменение размера элементов для контроля над их функциональностью.

Заключение

В этом обзоре мы представили обширное исследование методов взаимодействия пользователя с генеративным ИИ, фокусируясь на пользовательски-руководимых взаимодействиях. Мы определили ключевые термины, представили таксономии для различных аспектов взаимодействия и интерфейсов, и обсудили открытые проблемы и вызовы в этой области. Наша цель — создать справочник, который поможет дизайнерам и разработчикам в проектировании и разработке генеративных систем ИИ, обеспечивая более глубокое понимание того, как пользователи могут эффективно взаимодействовать с этими системами для достижения своих целей.