Ай Дайджест - категория taxonomy

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

2024-11-26benchmark taxonomy embedding

Исследование дизайна пользовательских интерфейсов и методов взаимодействия в приложениях с генеративным ИИ

Применение генеративного ИИ стало чрезвычайно впечатляющим, и взаимодействие между пользователями и ИИ стало еще более значимым. Современная литература по взаимодействию человека с ИИ рассматривает в общем виде, как люди взаимодействуют с генеративным ИИ, однако она не углубляется в детали по поводу дизайна пользовательского интерфейса и паттернов, используемых для создания этих приложений. Поэтому мы представляем обзор, который всесторонне освещает таксономии взаимодействия человека с ИИ и паттерны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных актуальных случаев использования. Мы в основном сосредотачиваемся на взаимодействиях, инициированных пользователем, изучая те, которые начинаются с действий пользователя и не включают в себя никакие неявные сигналы с его стороны. С помощью этого обзора мы стремимся создать справочник различных паттернов пользовательского взаимодействия, который может служить ориентиром как для дизайнеров, так и для разработчиков. В процессе этого мы также стремимся снизить порог входа для тех, кто хочет узнать больше о дизайне приложений генеративного ИИ.

2024-11-04generative user design

Персонализация крупных языковых моделей (LLM): Обзор

Персонализация крупных языковых моделей (LLM) в последнее время становится всё более важной благодаря широкому спектру применений. Несмотря на важность и недавние достижения, большинство существующих работ по персонализированным LLM сосредотачиваются либо полностью на (а) персонализированной генерации текста, либо на (б) использовании LLM для персонализированных приложений, таких как системы рекомендаций. В данной работе мы впервые мостим разрыв между этими двумя основными направлениями, вводя таксономию использования персонализированных LLM и суммируя ключевые различия и вызовы. Мы предлагаем формализацию основ персонализированных LLM, которая консолидирует и расширяет понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемых характеристик персонализированных LLM. Затем мы объединяем литературу по этим разнообразным областям и сценариям использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и применений персонализированных LLM. В заключение, мы выделяем вызовы и важные нерешённые проблемы, которые остаются актуальными. Объединяя и обозревая последние исследования с использованием предложенных таксономий, мы стремимся предоставить ясное руководство по существующей литературе и различным аспектам персонализации в LLM, поддерживая как исследователей, так и практиков.

2024-11-04formalization personalization applications