Ай Дайджест - категория llms

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

2024-12-17api performance feedback

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

2024-12-04knowledge rag llms

MALT: Улучшение рассуждений с помощью обучения многоагентных LLM

Включение эффективного сотрудничества между LLM является важным шагом к разработке автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы с единой моделью, где люди критикуют и уточняют их результаты, потенциал совместно обученных коллаборативных моделей остается в значительной степени неизученным. Несмотря на многообещающие результаты в многоагентной коммуникации и дебатах, мало что было сделано для обучения моделей работать вместе над задачами. В этой статье мы представляем первый шаг к "Обучению многоагентных LLM" (MALT) по решению задач на рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, которым назначены специализированные роли: генератор, проверяющий и модель уточнения, которые итеративно решают задачи. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию распределения кредитов, основанную на вознаграждениях, ориентированных на общий результат. Это позволяет нашей настройке после обучения использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на примерах MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительных улучшений в 14,14%, 7,12% и 9,40% соответственно по сравнению с той же базовой моделью. Это демонстрирует ранний прогресс в многоагентных кооперативных способностях для выполнения математических задач и вопросов общего смысла. В более общем плане, наша работа предоставляет конкретное направление для исследований в области подходов к обучению многоагентных LLM.

2024-12-04llms reasoning training

Адаптивный Инференс Мульти-Модальных LLM через Слияние и Обрезку Токенов

Большие языковые модели (LLM) позволили создать мультимодальные LLM, которые демонстрируют высокое понимание визуальных данных, таких как изображения и видео. Однако эти модели обычно полагаются на обширные визуальные токены от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в условиях ограниченных ресурсов и для задач с длинным контекстом. В этой работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкому диапазону требований по эффективности с минимальным падением производительности. Наш метод состоит из a) итеративного объединения токенов на основе сходства встраиваний перед LLM и b) прогрессивного отсечения токенов внутри слоев LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных бенчмарках видео и изображений показывают, что наш метод значительно снижает вычислительную нагрузку (например, 7-кратное снижение FLOPs), сохраняя производительность видео и изображений LLM. Кроме того, при аналогичных вычислительных затратах наш метод превосходит современные методы в понимании длинного видео (например, +4,6 на MLVU). Кроме того, наш углубленный анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая руководство для будущих исследований в проектировании эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.

2024-12-04llms multi-modal pruning

MolReFlect: В поисках точных соответствий между молекулами и текстами

Открытие молекул является ключевой областью исследований, влияющей на все, начиная от лекарств, которые мы принимаем, до материалов, которые мы используем. В последнее время Большие Языковые Модели (LLMs) широко используются для понимания и генерации молекул, однако согласование между молекулами и их соответствующими подписями остается значительным вызовом. Ранние попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, упуская из виду детальные соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые критически важны для точных и объяснимых прогнозов. В данном случае, мы представляем MolReFlect, новую учитель-ученик схему, разработанную для контекстного выполнения молекулярно-описательных соответствий на тонком уровне. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий путем прямого извлечения ключевых фраз из подписей молекул или строк SMILES и их сопоставления с соответствующими подструктурами или характеристиками. Для уточнения этих соответствий мы предлагаем Избирательное Отражение в Контексте, которое извлекает предыдущие результаты извлечения в качестве контекстных примеров для учительской LLM для отражения, и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. В заключение, мы улучшаем процесс обучения ученической LLM через Настройку Молекул в Контексте Цепи Мысли, интегрируя тонкие соответствия и процессы рассуждений в формате Цепи Мысли. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, таким как Mistral-7B, значительно превзойти предыдущие базовые показатели, достигая передовых результатов на датасете ChEBI-20. Это достижение не только улучшает генеративные способности LLM в задаче перевода молекула-подпись, но и способствует созданию более объяснимой системы.

2024-11-27alignment context teacher

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

2024-11-25adaptability llms interaction

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

2024-11-19rag qa llms

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

2024-11-15xgboost prediction llms

Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Стремление к автоматизации операций сотовых сетей выросло с увеличением сложности этих систем. Несмотря на достижения, полная автономность пока недостижима из-за необходимости человеческого вмешательства для моделирования поведения сети и определения политик для выполнения целевых требований. Цифровые двойники сети (NDTs) показали перспективность в улучшении интеллекта сетей, но успешная реализация этой технологии ограничена архитектурами, специфичными для конкретных случаев использования, что ограничивает ее роль в развитии автономности сети. Необходим более способный сетевой интеллект или "мозг телекоммуникаций", чтобы обеспечить бесшовное, автономное управление сотовой сетью. Большие языковые модели (LLMs) появились как потенциальные инструменты для реализации этой концепции, но сталкиваются с проблемами в моделировании сети, особенно в области логического мышления и обработки разнообразных типов данных. Чтобы преодолеть эти пробелы, мы представляем Hermes — цепочку агентов LLM, которая использует "чертежи" для создания экземпляров NDT через структурированные и объяснимые логические шаги. Hermes позволяет автоматическое, надежное и точное моделирование сети для различных сценариев использования и конфигураций, что знаменует прогресс на пути к полностью автономным операциям сети.

2024-11-15agents intelligence autonomy

Энергоэффективные модели языка белков: Использование малых языковых моделей с LoRA для контролируемой генерации белков

Крупные языковые модели (LLM) показали значительный успех в задачах обработки естественного языка (NLP) и продемонстрировали многообещающие результаты в других областях, таких как генерация последовательностей белков. Однако существуют существенные различия между LLM, используемыми для NLP, которые эффективно справляются с множеством задач и доступны в небольших размерах, и языковыми моделями белков, которые часто специализированы для конкретных задач и существуют только в более крупных размерах. В этой работе мы представляем две небольшие языковые модели белков, основанные на Llama-3-8B и Phi-3-mini, которые способны генерировать белки как неконтролируемым, так и контролируемым способом. Для задачи неконтролируемой генерации наша лучшая модель достигает среднего pLDDT-оценки 69.75, что свидетельствует о надежной работоспособности при создании жизнеспособных структур белков. Для задачи контролируемой генерации, где модель генерирует белки в соответствии с заданными в запросе свойствами, мы достигли выдающегося среднего TM-Score в 0.84, что указывает на высокую структурную схожесть с целевыми белками. Мы выбрали 10 свойств, включая шесть классов ферментов, чтобы расширить возможности предыдущих языковых моделей белков. Наш подход использует технику Low-Rank Adaptor (LoRA), сокращая количество обучаемых параметров до всего 4% от исходного размера модели, что снижает вычислительные требования. Используя подмножество набора данных UniRef50 и небольшие модели, мы сократили общее время обучения на 70% без ущерба для производительности. Стоит отметить, что Phi-3-mini сократил количество обучаемых параметров на 60%, уменьшив затраты на обучение на 30% по сравнению с Llama 3. В результате, Phi-3 достигла сопоставимого TM-Score в 0.81, демонстрируя, что меньшие модели могут соответствовать производительности более крупных, таких как Llama 3. Мы также продемонстрировали развертывание наших моделей на энергосберегающем чипе ET-SoC-1, значительно улучшив TPS/W в три раза.

2024-11-12llms generation performance

Эффективное тонкое настройка крупных языковых моделей для генерации юнит-тестов: Эмпирическое исследование

Появление крупных языковых моделей (LLMs), таких как GitHub Copilot, значительно повысило продуктивность программистов, особенно в области генерации кода. Однако эти модели часто сталкиваются с трудностями при выполнении реальных задач без дообучения. По мере того как LLM становятся больше и более производительными, дообучение для специализированных задач становится все более дорогим. Методы параметрически-эффективного дообучения (PEFT), которые дообучают только подмножество параметров модели, предлагают перспективное решение, уменьшая вычислительные затраты на настройку LLM при сохранении их производительности. Существующие исследования исследовали использование PEFT и LLM для различных задач, связанных с кодом, и обнаружили, что эффективность методов PEFT зависит от задачи. Применение методов PEFT в генерации модульных тестов остается недостаточно изученным. На данный момент передовой уровень ограничивается использованием LLM с полным дообучением для генерации модульных тестов. В данной статье исследуются как полное дообучение, так и различные методы PEFT, включая LoRA, (IA)^3 и настройку запросов, для разных архитектур и размеров моделей. Мы используем хорошо установленные эталонные наборы данных для оценки их эффективности в генерации модульных тестов. Наши результаты показывают, что методы PEFT могут обеспечивать производительность, сравнимую с полным дообучением, для генерации модульных тестов, делая специализированное дообучение более доступным и экономически выгодным. Особенно стоит отметить, что настройка запросов является наиболее эффективной в плане затрат и использования ресурсов, в то время как метод LoRA приближается к эффективности полного дообучения в нескольких случаях.

2024-11-11peft llms benchmark

Языковые модели как скрытые логики: Раскрытие латентных возможностей рассуждений с помощью самооценки

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности, но всё ещё испытывают трудности с задачами сложного рассуждения, требующими нескольких шагов. Хотя методы, основанные на подсказках, такие как Цепочка мыслей (CoT), могут улучшить способности LLM к рассуждению во время вывода, оптимизация способностей к рассуждению во время обучения остаётся сложной задачей. Мы представляем Оптимизацию латентного рассуждения (LaTRO), принципиальную структуру, которая формулирует рассуждение как выборку из латентного распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений без необходимости внешней обратной связи или моделей вознаграждения. Мы проверили LaTRO на экспериментах с наборами данных GSM8K и ARC-Challenge, используя несколько архитектур моделей. На GSM8K, LaTRO улучшает нулевой точность на 12.5% по сравнению с базовыми моделями и на 9.6% по сравнению с надзорной настройкой для моделей Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты указывают на то, что предобученные LLM обладают скрытыми способностями к рассуждению, которые можно раскрыть и улучшить с помощью нашего предложенного подхода к оптимизации в рамках самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.

2024-11-11self-improvement training latent

Введение в CAD-MLLM: Объединение Генерации CAD с Мультимодальными Условиями

Эта статья направлена на разработку унифицированной системы генерации компьютерного проектирования (САПР), которая может легко создавать модели САПР на основе вводимых пользователем данных в виде текстового описания, изображений, облаков точек или их комбинации. В достижении этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические модели САПР, учитывая многомодальные входные данные. Конкретно, в рамках фреймворка CAD-MLLM, мы используем последовательности команд моделей САПР, а затем применяем продвинутые большие языковые модели (LLMs) для выравнивания пространства признаков между этими разнообразными многомодальными данными и векторизованными представлениями моделей САПР. Для облегчения обучения модели мы разработали комплексный конвейер конструирования и аннотации данных, который оснащает каждую модель САПР соответствующими многомодальными данными. Наш полученный набор данных, названный Omni-CAD, является первым многомодальным набором данных САПР, содержащим текстовое описание, изображения с различных ракурсов, точки и последовательность команд для каждой модели САПР. Он содержит примерно 450 тысяч экземпляров и их последовательностей построения САПР. Для тщательной оценки качества сгенерированных моделей САПР мы идем дальше текущих метрик оценки, сфокусированных на качестве восстановления, вводя дополнительные метрики, которые оценивают качество топологии и степень охвата поверхности. Результаты обширных экспериментов показывают, что CAD-MLLM значительно превосходит существующие методы условной генерации и остается высоко устойчивым к шумам и отсутствующим точкам. Страница проекта и дополнительные визуализации доступны по адресу: https://cad-mllm.github.io/

2024-11-11metrics parametric dataset

Как LLM могут следовать информационным нитям в огромных контекстах?

По мере увеличения контекстных ограничений крупных языковых моделей (LLMs), расширяется и диапазон возможных приложений и последующих функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям часто разнородных документов, содержащих в основном нерелевантную информацию. LLMs с длинным контекстом кажутся хорошо приспособленными для такого рода сложного поиска и анализа информации, который традиционно оказывался затратным и трудоемким. Однако, несмотря на быстрые достижения в разработке моделей с более длинным контекстом за последние годы, наше понимание того, насколько эффективно LLMs используют свой контекст, не успевает за этими изменениями. Для решения этой проблемы мы проводим серию экспериментов по извлечению информации, предназначенных для оценки возможностей 17 ведущих LLMs, таких как их способность следить за потоками информации через контекстное окно. Удивительно, но мы обнаружили, что многие модели обладают замечательной способностью к многопоточности: они способны одновременно следить за несколькими потоками информации без значительного снижения производительности. Тем не менее, для многих моделей мы находим, что фактический предел контекста значительно меньше, чем поддерживаемая длина контекста, причем точность снижается по мере увеличения контекстного окна. Наше исследование также подчеркивает важный момент, что количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно различающемуся количеству написанных символов. Мы публикуем наш код и данные экспериментов с длинным контекстом.

2024-11-08llms context retrieval

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.

2024-11-07optimization llms transformer

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

2024-11-06generation rag pruning

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

2024-11-05llms benchmark training

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.

2024-11-04llms accuracy hallucinations

Улучшение способности следовать сложным инструкциям у больших языковых моделей через обратный перевод ограничений

Крупные языковые модели (LLMs) испытывают трудности с выполнением инструкций, содержащих сложные ограничения по формату, длине и т.д. Следуя традиционной практике настройки инструкций, предыдущие исследования проводили постобучение на парах сложных инструкций и ответов, сгенерированных путем подачи сложных инструкций в продвинутые LLM. Однако даже продвинутые LLM плохо справляются с выполнением сложных инструкций, что ограничивает качество генерируемых данных. В данной работе мы обнаруживаем, что существующие наборы данных уже содержат неявные сложные ограничения и предлагаем новый метод генерации данных — обратный перевод ограничений. Конкретно, мы берем высококачественные пары инструкций-ответов из существующих наборов данных и используем только продвинутые LLM для добавления сложных ограничений, которые уже выполняются ответами, что естественным образом снижает затраты и шум данных. В экспериментах мы использовали модель Llama3-70B-Instruct для обратного перевода ограничений и создали высококачественный набор данных сложных инструкций-ответов, названный CRAB. Мы показываем, что постобучение на CRAB улучшает способность различных базовых LLM следовать сложным инструкциям, что было оценено на обширных бенчмарках следования инструкциям. Мы также обнаружили, что обратный перевод ограничений служит полезной вспомогательной целью обучения в процессе постобучения. Наш код, данные и модели будут опубликованы для содействия будущим исследованиям.

2024-11-01benchmarks back-translation dataset

SelfCodeAlign: Само-aligning для генерации кода

Перевод текста на русский: "Настройка инструкций — это метод тонкой настройки под контролем, который значительно улучшает способность больших языковых моделей (LLM) следовать инструкциям человека. Мы предлагаем SelfCodeAlign, первую полностью прозрачную и разрешительную схему для само-согласования кодовых LLM без обширных человеческих аннотаций или дистилляции. SelfCodeAlign использует ту же базовую модель для вывода на протяжении всего процесса генерации данных. Сначала она извлекает разнообразные кодовые концепции из высококачественных исходных фрагментов для генерации новых задач. Затем она генерирует несколько ответов на каждую задачу, сопоставляет каждый ответ с тестовыми случаями и проверяет их в песочнице. Наконец, выбираются примеры, прошедшие проверку, для настройки инструкций. В наших основных экспериментах мы используем SelfCodeAlign с CodeQwen1.5-7B для создания набора данных из 74 тысяч пар инструкций-ответов. Тонкая настройка на этом наборе данных приводит к модели, которая достигает 67.1 pass@1 на HumanEval+, превосходя CodeLlama-70B-Instruct, несмотря на то, что она в десять раз меньше. Во всех тестах эта модель последовательно превосходит оригинальную версию, обученную с использованием OctoPack, предыдущий метод наилучшего уровня для настройки инструкций без человеческих аннотаций или дистилляции. Кроме того, мы показываем, что SelfCodeAlign эффективен для LLM различных размеров, от 3B до 33B, и что базовые модели могут больше выиграть от согласования с их собственным распределением данных. Мы также проверяем эффективность каждого компонента в нашей схеме, показывая, что SelfCodeAlign превосходит как прямую дистилляцию из GPT-4o, так и ведущие методы дистилляции на основе GPT-3.5, такие как OSS-Instruct и Evol-Instruct. SelfCodeAlign также привел к созданию StarCoder2-Instruct, первой полностью прозрачной, разрешительно лицензированной и само-согласованной кодовой LLM, которая достигает передовых результатов в программировании."

2024-11-01inference benchmarks datasets