Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "retrieval"

RAG-RewardBench: Оценка моделей вознаграждения в контексте генерации с использованием дополненной выборки

Несмотря на значительный прогресс, достигнутый существующими языковыми моделями с дополненной извлечением (RALMs) в обеспечении надежных ответов и оснований на надежных источниках, они часто упускают из виду эффективное согласование с предпочтениями человека. В процессе согласования модели вознаграждения (RMs) выступают в качестве важного прокси для человеческих ценностей, чтобы направлять оптимизацию. Однако до сих пор неясно, как оценить и выбрать надежную RM для согласования предпочтений в RALMs. В этой связи мы предлагаем RAG-RewardBench, первую оценочную таблицу для оценки RMs в условиях RAG. Сначала мы разрабатываем четыре ключевых и сложных сценария, специфичных для RAG, для оценки RMs, включая многоступенчатое рассуждение, детальную цитату, соответствующее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть извлекателей и 24 RALMs, чтобы увеличить разнообразие источников данных. Наконец, мы используем подход LLM-as-a-judge для повышения эффективности и результативности аннотирования предпочтений, демонстрируя сильную корреляцию с аннотациями человека. На основе RAG-RewardBench мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также обнаруживаем, что уже обученные RALMs почти не показывают улучшения в согласовании предпочтений, подчеркивая необходимость перехода к обучению, основанному на предпочтениях. Мы публикуем нашу оценочную таблицу и код в открытом доступе по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих исследований.

VisDoM: Мультимодальное QA с визуально насыщенными элементами

Понимание информации из коллекции нескольких документов, особенно тех, которые содержат визуально насыщенные элементы, важно для ответа на вопросы, основанные на документах. Эта статья представляет VisDoMBench, первый всесторонний бенчмарк, предназначенный для оценки систем QA в условиях многодокументной среды с богатым мультимодальным контентом, включая таблицы, диаграммы и слайды презентаций. Мы предлагаем VisDoMRAG, новый многомодальный подход к увеличению извлечения (RAG), который одновременно использует визуальное и текстовое RAG, комбинируя надежные возможности визуального извлечения с сложным языковым рассуждением. VisDoMRAG использует многоступенчатый процесс рассуждения, охватывающий отбор доказательств и последовательное рассуждение для параллельных текстовых и визуальных RAG-потоков. Ключевым новшеством VisDoMRAG является его механизм слияния модальностей с ограничениями по согласованности, который согласует процессы рассуждения между модальностями в моментInference для получения связного окончательного ответа. Это приводит к повышенной точности в сценариях, где критическая информация распределена между модальностями, и улучшенной проверяемости ответов за счет неявной атрибуции контекста. Через обширные эксперименты с использованием открытых и проприетарных больших языковых моделей мы оценили современные методы документального QA на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит однородные и длинные контекстные базовые LLM на 12-20% в конце концов многомодального документального QA.

OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

RetroLLM: Объединение поиска и генерации для больших языковых моделей

Большие языковые модели (LLM) демонстрируют замечательные генеративные способности, но часто страдают от галлюцинаций. Генерация с поддержкой поиска (RAG) предлагает эффективное решение, включая внешний контекст, но существующие методы сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных извлекательных модулей, избыточные токены ввода из извлеченных текстовых фрагментов и отсутствие совместной оптимизации извлечения и генерации. Чтобы решить эти проблемы, мы предлагаем RetroLLM — единые архитектуры, объединяющие извлечение и генерацию в один последовательный процесс, позволяя LLM непосредственно генерировать детализированные доказательства из корпуса с использованием ограниченного декодирования. Более того, чтобы смягчить ложную обрезку в процессе генерации ограниченных доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют подсказки, ограниченные корпусом, чтобы определить подмножество релевантных документов перед генерацией доказательств, снижая нерелевантное декодирование; и (2) стратегию ограниченного декодирования, ориентированную на будущее, которая учитывает релевантность будущих последовательностей для повышения точности доказательств. Обширные эксперименты на пяти наборах данных открытых доменов QA демонстрируют превосходные результаты RetroLLM как в задачах в области, так и за ее пределами. Код доступен по адресу https://github.com/sunnynexus/RetroLLM.

KV Cache-Centric Analysis of Long-Context Methods

Долгосрочные LLM (языковые модели) способствовали множеству downstream-приложений, но также вызвали существенные проблемы, связанные с вычислительной и памятью. Чтобы решить эти проблемы, были разработаны оптимизации для долгосрочного вывода, сосредоточенные вокруг кэша KV. Однако существующие тесты часто оценивают в режиме одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недостаток особенно критичен, поскольку повторное использование кэша KV стало широко распространено в рамках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Чтобы устранить этот пробел, мы представляем SCBench (SharedContextBench), комплексный тест для оценки методов долгосрочного контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, покрывая четыре категории возможностей долгосрочного контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ решений долгосрочного контекста с акцентом на кэш KV по восьми категориям, включая Gated Linear RNNs, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, сброс кэша KV, квантование, извлечение, загрузку и сжатие подсказок. Оценка проводится на 8 долгосрочных LLM. Наши результаты показывают, что методы с памятью менее O(n) страдают в сценариях многопроходного общения, в то время как разреженное кодирование с памятью O(n) и вычислениями предварительной заливки менее O(n^2) демонстрирует надежную работу. Динамическая разреженность создает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоев в гибридных архитектурах снижает использование памяти с высокой производительностью. Кроме того, мы выявляем проблемы с изменением распределения внимания в сценариях долгосрочной генерации. https://aka.ms/SCBench.

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

GatedDeltaNet: Новая архитектура для улучшения моделей LLM

Линейные трансформеры привлекли внимание как эффективные альтернативы стандартным трансформерам, но их производительность в задачах поиска и длинного контекста была ограниченной. Чтобы преодолеть эти ограничения, недавние исследования исследовали два различных механизма: управление адаптивной памятью с помощью гейтов и правило обновления дельты для точных модификаций памяти. Мы наблюдаем, что эти механизмы являются взаимодополняющими: гейты обеспечивают быструю стерилизацию памяти, в то время как правило дельты облегчает целенаправленные обновления. Основываясь на этом понимании, мы вводим правило гейта дельты и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, по нескольким бенчмаркам, включая языковое моделирование, рассуждения на основе общего смысла, поиск в контексте, экстраполяцию длины и понимание длинного контекста. Мы также повышаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием в скользящем окне или слоями Mamba2, достигая как повышенной эффективности обучения, так и превосходных результатов по задачам.

Генерация рабочих процессов с помощью декомпозиции задач и RAG: Путь к низкокодовым решениям

Технологии ИИ быстро переходят от исследований к производству. С ростом популярности Фундаментальных Моделей (FM), которые генерируют текст, изображения и видео, сложность систем на основе ИИ возрастает. По сравнению с традиционным программным обеспечением на основе ИИ, системы, использующие FM или системы на основе генеративного ИИ (GenAI), более сложны в проектировании из-за их масштаба и универсальности. Это делает необходимым документирование лучших практик, известных как проектные шаблоны в программной инженерии, которые могут быть использованы в различных приложениях GenAI. Нашим первым вкладом является формализация двух техник, Разложение задач и Генерация с дополнением данных (RAG), как проектных шаблонов для систем на основе GenAI. Мы обсуждаем их компромиссы в контексте атрибутов качества программного обеспечения и комментируем альтернативные подходы. Мы рекомендуем практикам ИИ рассматривать эти техники не только с научной точки зрения, но и с точки зрения желаемых инженерных свойств, таких как гибкость, поддерживаемость, безопасность и защита. В качестве второго вклада мы описываем наш опыт работы в отрасли, применяя Разложение задач и RAG для создания сложного реального приложения GenAI для корпоративных пользователей: Генерация рабочих процессов. Задача генерации рабочих процессов включает в себя создание конкретного плана с использованием данных из системной среды, принимая в качестве входного параметра требования пользователя. Поскольку эти два шаблона влияют на весь цикл разработки ИИ, мы объясняем, как они повлияли на создание датасета, обучение модели, оценку модели и этапы развертывания.

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать нарастающий объем литературы. Могут ли крупные языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с дополнительной функцией извлечения информации, которая отвечает на научные запросы, определяя релевантные отрывки из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный бенчмарк для поиска литературы в нескольких областях, включающий 2967 запросов, написанных экспертами, и 208 длинных ответов в области информатики, физики, нейронаук и биомедицины. На ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что это меньшая и открытая модель. В то время как GPT-4o фальсифицирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Система хранения данных, извлекатель и петля самокоррекции OpenScholar также улучшают стандартные модели LM: например, OpenScholar-GPT4o повышает правильность ответов GPT-4o на 12%. В оценках, проведенных экспертами, предпочтение OpenScholar-8B и OpenScholar-GPT4o было отдано в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы делаем открытыми все наши коды, модели, хранилище данных, данные и демонстрационную версию.

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

Погружение в документы: Последствия масштабирования вывода переоценщиков

Переранжировщики, обычно кросс-энкодеры, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, несмотря на свою высокую стоимость, считается, что переранжировщики более эффективны. Мы ставим под сомнение это предположение, измеряя эффективность переранжировщиков при полном извлечении документов, а не только при повторной оценке результатов первого этапа поиска. Наши эксперименты выявили неожиданную тенденцию: лучшие существующие переранжировщики дают убывающую отдачу при оценке все большего числа документов и фактически ухудшают качество после определенного предела. На самом деле, в данном контексте переранжировщики часто присваивают высокие оценки документам, которые не имеют ни лексического, ни семантического совпадения с запросом. Мы надеемся, что наши выводы стимулируют будущие исследования по улучшению переранжирования.

Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."

Как LLM могут следовать информационным нитям в огромных контекстах?

По мере увеличения контекстных ограничений крупных языковых моделей (LLMs), расширяется и диапазон возможных приложений и последующих функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям часто разнородных документов, содержащих в основном нерелевантную информацию. LLMs с длинным контекстом кажутся хорошо приспособленными для такого рода сложного поиска и анализа информации, который традиционно оказывался затратным и трудоемким. Однако, несмотря на быстрые достижения в разработке моделей с более длинным контекстом за последние годы, наше понимание того, насколько эффективно LLMs используют свой контекст, не успевает за этими изменениями. Для решения этой проблемы мы проводим серию экспериментов по извлечению информации, предназначенных для оценки возможностей 17 ведущих LLMs, таких как их способность следить за потоками информации через контекстное окно. Удивительно, но мы обнаружили, что многие модели обладают замечательной способностью к многопоточности: они способны одновременно следить за несколькими потоками информации без значительного снижения производительности. Тем не менее, для многих моделей мы находим, что фактический предел контекста значительно меньше, чем поддерживаемая длина контекста, причем точность снижается по мере увеличения контекстного окна. Наше исследование также подчеркивает важный момент, что количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно различающемуся количеству написанных символов. Мы публикуем наш код и данные экспериментов с длинным контекстом.

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

retrievalllmrag

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.