Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "dialogue"

Реформулирование взаимодействия в диалоге с использованием тонкой элементной модели

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека и машины, что привело к накоплению огромного количества журналов бесед и увеличению спроса на генерацию диалога. Цикл жизни разговора охватывает Прелюдию, Интерлокацию и Эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогом, отсутствуют эталоны, охватывающие всеобъемлющие элементы диалога, что затрудняет точное моделирование и систематическую оценку. Чтобы устранить этот разрыв, мы представляем инновационную исследовательскую задачу Моделирования Элементов Диалога, включая Осведомленность об Элементах и Взаимодействие Агентов Диалога, и предлагаем новый эталон DEMO, предназначенный для комплексного моделирования и оценки диалога. Вдохновленные обучением подражанию, мы также создаем агента, обладающего опытной способностью моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще демонстрируют значительный потенциал для улучшения, и наш агент DEMO имеет высокую производительность как в доменных, так и в недоменных задачах.

Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

Существующие задачи навигации по целям экземпляров, основанные на естественном языке, предполагают, что пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и неоднозначными. Чтобы преодолеть этот разрыв, мы предлагаем новую задачу — Совместная навигация по экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, свободных от шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод — Взаимодействие агента и пользователя с Осознанием Неопределенности (AIUTA), использующий восприятие возможностей Моделей Визуального Языка (VLM) и возможности Больших Языковых Моделей (LLM). Сначала, после обнаружения объекта, модель Само-Вопросителя инициирует самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности уменьшает неаккуратное восприятие VLM. Затем модуль Триггер Взаимодействия решает, следует ли задать вопрос пользователю, продолжать или остановить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, эталон, поддерживающий как реальных, так и смоделированных людей. AIUTA демонстрирует конкурентоспособные результаты в навигации по экземплярам по сравнению с передовыми методами, проявляя большую гибкость в обработке пользовательских вводов.

SketchAgent: Language-Driven Sequential Sketch Generation

Эскизирование служит универсальным инструментом для внешнего выражения идей, позволяя быстро исследовать и визуально коммуницировать через различные дисциплины. Хотя искусственные системы привели к значительным достижениям в создании контента и взаимодействии человека с компьютером, задача по захвату динамичной и абстрактной природы человеческих эскизов остается сложной. В данной работе мы представляем SketchAgent — метод генерации последовательных эскизов, управляемый языком, который позволяет пользователям создавать, изменять и уточнять эскизы через динамичные, разговорные взаимодействия. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и богатые предварительные знания готовых мультимодальных крупных языковых моделей (LLM). Мы представляем интуитивно понятный язык эскизирования, который вводится в модель через примеры в контексте, позволяя ей "рисовать" с помощью строковых действий. Эти действия преобразуются в векторную графику и затем отображаются для создания эскиза на пиксельном холсте, который можно снова использовать для дальнейших задач. Рисуя мазок за мазком, наш агент улавливает развивающиеся, динамичные качества, присущие эскизированию. Мы демонстрируем, что SketchAgent способен генерировать эскизы из разнообразных запросов, участвовать в диалоговом рисовании и значимо сотрудничать с пользователями.