Ай Дайджест - категория instruction

S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

Академическая область обучения визуальной навигации, управляемой инструкциями, может быть в общем случае подразделена на навигацию, основанную на высокоуровневом поиске по категориям, и навигацию, основанную на языковых инструкциях низкого уровня, в зависимости от детализации языковых указаний, где первая акцентирует внимание на процессе исследования, в то время как вторая сосредотачивается на выполнении детализированных текстовых команд. Несмотря на различия в фокусе этих задач, основные требования к интерпретации инструкций, пониманию окружающей среды и выводу решений по действиям остаются неизменными. В данной статье мы объединяем различные задачи навигации в единую и общую структуру - мы исследуем основные трудности дележа общих знаний и использования специфических задачам возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основании языковых инструкций с различной детальностью и динамических наблюдений. С помощью SAME мы представляем универсального агента, способного одновременно решать семь задач навигации, который превосходит или достигает высоко сопоставимых результатов с узкоспециализированными агентами.

2024-12-13decisions granularity framework

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

2024-12-11synthesis benchmark instruction

EXAONE 3.5: Новые горизонты для больших языковых моделей

Этот технический отчет представляет модели языков EXAONE 3.5, настроенные на выполнение инструкций, разработанные и выпущенные исследовательской командой LG AI. Модели языка EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися способностями: 1) исключительные возможности следования инструкциям в реальных сценариях, достигающие наивысших баллов по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигающее лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с современными открытыми моделями аналогичного размера по девяти общим бенчмаркам. Модели языка EXAONE 3.5 открыты для всех в исследовательских целях и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальной контактной точкой LG AI Research: [email protected].

2024-12-09research instruction capabilities