Свежая выжимка ml и AI статей - каждый день
Генеративный искусственный интеллект (ИИ) приобретает все большее значение в различных областях, кардинально меняя подходы к взаимодействию человека и машины. В последние годы, особенно с развитием крупных языковых моделей (LLM) и других генеративных моделей, взаимодействие между пользователями и ИИ стало предметом активного изучения в литературе по взаимодействию человека и компьютера (HCI). Однако, несмотря на обширные исследования, существует недостаток конкретики в описании пользовательских интерфейсов (UI) и паттернов взаимодействия, используемых для создания этих приложений. В этой статье мы представим обзор, который систематизирует способы взаимодействия человека с ИИ, фокусируясь на пользовательских интерфейсах и паттернах взаимодействия, направленных на удовлетворение разнообразных потребностей.
Формализация ключевых понятий и определений: Мы определим и разграничим ключевые термины, связанные с UI и взаимодействием для приложений генеративного ИИ, с акцентом на пользовательски-руководимые взаимодействия (user-guided interactions).
Таксономия методов взаимодействия с UI: Мы представим таксономию, классифицирующую и обобщающую общие паттерны взаимодействия с UI, используемые в генеративных системах ИИ.
Таксономия макетов пользовательских интерфейсов: Мы обсудим ключевые структуры UI, которые используются в различных генеративных приложениях.
Таксономия уровней вовлеченности человека и ИИ: Мы исследуем интенсивность и формы взаимодействия между человеком и ИИ, представляя новые уровни вовлеченности.
Таксономия приложений и случаев использования: Мы выделим и классифицируем различные приложения генеративного ИИ, показывая, какие UI и методы взаимодействия наиболее подходят для различных сценариев.
Обзор открытых проблем и вызовов: Мы обсудим проблемы и направления для будущих исследований, касающиеся доступности, роста и этических аспектов генеративного ИИ.
Этот обзор сосредоточен на пользовательски-руководимых методах взаимодействия для приложений генеративного ИИ, которые иногда называют техниками управляемости (controllability techniques). Мы не рассматриваем методы взаимодействия, которые не являются пользовательски-руководимыми, а также методы, использующие обратную связь между пользователем и системой.
Пользовательски-руководимые взаимодействия — это явные действия, инициированные пользователем, которые влияют на работу системы. В контексте генеративного ИИ это могут быть любые действия, от запросов (prompting) к системе для выполнения определенных задач до выбора и манипулирования объектами в системе или настройки параметров для создания специфического выхода. Примером может служить пользователь, который пишет запрос для генерации изображения, затем корректирует параметры или выбирает определенные части изображения для дальнейшего манипулирования. Эти взаимодействия отличаются от неявных взаимодействий, где система реагирует на поведение пользователя без явных команд.
Определение 1 (Входные данные): Входные данные — это информация, загружаемая пользователем в систему, на которой затем основываются запросы.
Определение 2 (Запросы): Запросы — это пользовательски-руководимые взаимодействия, при которых пользователь просит генеративную систему выполнить определенную задачу. Запросы могут быть текстовыми, визуальными, аудиальными или мультимодальными.
Мы рассмотрим различные модальности входных данных, которые пользователи могут использовать при взаимодействии с генеративными системами ИИ:
Текстовые данные: Текстовые данные включают в себя любую информацию, представленную в виде текста, будь то структурированный или неструктурированный текст, который используется для генерации или обработки.
Визуальные данные: Визуальные данные могут быть изображениями, видео или визуальными взаимодействиями, такими как жесты в виртуальной реальности.
Аудиальные данные: Аудиальные данные включают в себя речь и другие аудиозаписи, которые могут быть использованы для генерации или обработки аудиоконтента.
Запросы являются одним из основных способов взаимодействия пользователя с генеративной системой ИИ. Они могут быть:
Текстовыми запросами: Самый распространенный способ взаимодействия, где пользователь использует текст для инструкций системы.
Визуальными запросами: Использование визуальных средств, таких как жесты или манипуляции объектами, для запроса выполнения задачи.
Аудиальными запросами: Запросы через речь или другие аудиосигналы.
Мультимодальными запросами: Комбинация различных модальностей для создания более сложных запросов.
Техники выбора включают различные способы выделения или выбора элементов UI для дальнейшего взаимодействия:
Одиночный выбор: Выбор одного элемента для взаимодействия.
Множественный выбор: Выбор нескольких элементов одновременно.
Лассо и кисть: Использование инструментов для выделения областей на изображении или в тексте.
Эти взаимодействия позволяют пользователю настраивать параметры системы для создания персонализированных выходных данных:
Меню: Использование меню для выбора предустановленных параметров или ввода собственных.
Слайдеры: Интерфейсные элементы для регулировки параметров системы.
Явная обратная связь: Пользователь может давать обратную связь, которая влияет на параметры системы.
Эти взаимодействия включают в себя прямое изменение, настройку и трансформацию UI элементов:
Перетаскивание и сброс: Перемещение элементов для изменения их положения или функции.
Соединение: Соединение элементов для создания новых взаимодействий или функций.
Изменение размера: Изменение размера элементов для контроля над их функциональностью.
В этом обзоре мы представили обширное исследование методов взаимодействия пользователя с генеративным ИИ, фокусируясь на пользовательски-руководимых взаимодействиях. Мы определили ключевые термины, представили таксономии для различных аспектов взаимодействия и интерфейсов, и обсудили открытые проблемы и вызовы в этой области. Наша цель — создать справочник, который поможет дизайнерам и разработчикам в проектировании и разработке генеративных систем ИИ, обеспечивая более глубокое понимание того, как пользователи могут эффективно взаимодействовать с этими системами для достижения своих целей.