Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "context"

Word Sense Linking: Новая Эра в Разрешении Смысла Слов

Дисамбигация значений слов (WSD) – это задача ассоциации слова в данном контексте с его наиболее подходящим значением среди набора возможных кандидатов. Хотя в последнее время задача привлекла renewed интерес, и системы показывают результаты выше оценочного соглашения между аннотаторами, на момент написания она все еще испытывает трудности с поиском downstream приложений. Мы утверждаем, что одной из причин этого является сложность применения WSD к простому тексту. На самом деле, в стандартной формулировке модели работают при следующих предположениях: а) все диапазоны, которые необходимо дизамбигировать, были заранее определены, и б) предоставлены все возможные кандидатные значения каждого диапазона, что является требованиями, которые далеко не тривиальны. В этой работе мы представляем новую задачу, называемую связыванием значений слов (WSL), где, учитывая входной текст и справочник значений, системам необходимо как определить, какие диапазоны необходимо дизамбигировать, так и связать их с наиболее подходящим значением. Мы предлагаем архитектуру на основе трансформеров для задачи и тщательно оцениваем как ее производительность, так и производительность современных систем WSD, адаптированных к WSL, постепенно ослабляя предположения WSD. Мы надеемся, что наша работа будет способствовать более легкой интеграции лексической семантики в downstream приложения.

StreamChat: Интерактивное взаимодействие с потоковым видео

В данной статье представлен StreamChat — новый подход, который улучшает возможности взаимодействия Больших Мультимодальных Моделей (LMM) с потоковым видео-контентом. В сценариях взаимодействия с потоками существующие методы полагаются исключительно на визуальную информацию, доступную в момент, когда задаётся вопрос, что приводит к значительным задержкам, поскольку модель не осознает последующие изменения в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, гарантируя, что модель использует актуальный видео-контент на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых вводов, обеспечивая при этом эффективность вывода для потоковых взаимодействий. Более того, мы создаем новый плотный датасет инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты демонстрируют, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках для изображений и видео и демонстрирует превосходные возможности в сценариях потокового взаимодействия по сравнению с современными видео LMM.

Контекстуализированная контрречь: стратегии адаптации, персонализации и оценки

Сгенерированная ИИ контрречь предлагает многообещающую и масштабируемую стратегию для сокращения онлайн-токсичности через прямые ответы, которые способствуют гражданскому дискурсу. Однако текущая контрречь является универсальной, не адаптированной к контексту модерации и вовлеченным пользователям. Мы предлагаем и оцениваем несколько стратегий генерации адаптированной контрречи, которая подстраивается под контекст модерации и персонализируется для пользователя, подвергающегося модерации. Мы обучаем модель LLaMA2-13B генерировать контрречь, экспериментируя с различными конфигурациями на основе различной контекстуальной информации и стратегий дообучения. Мы определяем конфигурации, которые генерируют убедительную контрречь с помощью комбинации количественных показателей и человеческих оценок, собранных в ходе заранее зарегистрированного эксперимента по краудсорсингу смешанного дизайна. Результаты показывают, что контекстуализированная контрречь может значительно превосходить самые современные универсальные контрречи по адекватности и убеждающей силе, не ухудшая другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и человеческими оценками, что предлагает, что эти методы оценивают разные аспекты и подчеркивает необходимость более тонких методологий оценки. Эффективность контекстуализированной сгенерированной ИИ контрречи и расхождение между человеческими и алгоритмическими оценками подчеркивают важность увеличенного сотрудничества человека и ИИ в модерации контента.

TAPTRv3: Улучшение отслеживания точек в длинных видео

В данной работе мы представляем TAPTRv3, который основан на TAPTRv2 и направлен на улучшение его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, которая может точно отслеживать любую точку в реальных видеоматериалах без необходимости использования объема затрат. TAPTRv3 улучшает TAPTRv2, устраняя его недостаток в запрашивании высококачественных признаков из длинных видео, где целевые точки отслеживания обычно подвергаются увеличивающимся изменениям со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запрашивания признаков по пространственным и временным измерениям для более надежного отслеживания в длинных видео. Для лучшего запрашивания пространственных признаков мы представляем Контекстно-осознающее Перекрестное Внимание (CCA), которое использует окружающий пространственный контекст для повышения качества значений внимания при запросе признаков изображения. Для лучшего запрашивания временных признаков мы вводим Внимание с учетом Видимости на Долгом Времени (VLTA), чтобы проводить временное внимание ко всем прошлым кадрам с учетом их соответствующих видимостей, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его RNN-подобным долгосрочным моделированием. TAPTRv3 значительно превосходит TAPTRv2 на большинстве сложных наборов данных и достигает передовой производительности. Даже по сравнению с методами, обученными на данных большого масштаба, TAPTRv3 по-прежнему остается конкурентоспособным.

X-Prompt: К универсальной генерации изображений в контексте

Генерация в контексте является ключевым компонентом способности больших языковых моделей (LLM) к обобщению в открытых задачах. Используя несколько примеров в качестве контекста, LLM могут выполнять задачи как в своей области, так и за ее пределами. Недавние достижения в области авто-регрессионных моделей, сочетающих язык и визуальные данные (VLM), основанных на LLM, продемонстрировали впечатляющую эффективность в генерации текста в изображения. Однако потенциал обучения в контексте для генерации изображений в целом остается в значительной степени неосвещенным. Чтобы решить эту проблему, мы представляем X-Prompt — чисто авто-регрессионную крупную языковую модель для обработки визуальных данных, разработанную для обеспечения конкурентоспособной производительности в широком диапазоне задач генерации изображений как видимых, так и невидимых, в рамках единой структуры обучения в контексте. X-Prompt включает в себя специализированный дизайн, который эффективно сжимает ценные признаки из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая свою способность обобщать на незнакомые задачи. Единая задача обучения как для текстового, так и для визуального предсказания позволяет X-Prompt справляться с генерацией изображений в общем с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты проверяют производительность модели по разнообразным задачам генерации видимых изображений и ее способность обобщать на ранее невидимые задачи.

MolReFlect: В поисках точных соответствий между молекулами и текстами

Открытие молекул является ключевой областью исследований, влияющей на все, начиная от лекарств, которые мы принимаем, до материалов, которые мы используем. В последнее время Большие Языковые Модели (LLMs) широко используются для понимания и генерации молекул, однако согласование между молекулами и их соответствующими подписями остается значительным вызовом. Ранние попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, упуская из виду детальные соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые критически важны для точных и объяснимых прогнозов. В данном случае, мы представляем MolReFlect, новую учитель-ученик схему, разработанную для контекстного выполнения молекулярно-описательных соответствий на тонком уровне. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий путем прямого извлечения ключевых фраз из подписей молекул или строк SMILES и их сопоставления с соответствующими подструктурами или характеристиками. Для уточнения этих соответствий мы предлагаем Избирательное Отражение в Контексте, которое извлекает предыдущие результаты извлечения в качестве контекстных примеров для учительской LLM для отражения, и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. В заключение, мы улучшаем процесс обучения ученической LLM через Настройку Молекул в Контексте Цепи Мысли, интегрируя тонкие соответствия и процессы рассуждений в формате Цепи Мысли. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, таким как Mistral-7B, значительно превзойти предыдущие базовые показатели, достигая передовых результатов на датасете ChEBI-20. Это достижение не только улучшает генеративные способности LLM в задаче перевода молекула-подпись, но и способствует созданию более объяснимой системы.

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

Символическая Оптимизация Предпочтений с Демонстрациями (SymDPO): Усиление Контекстно-Ориентированного Обучения Мультимодальных Моделей

По мере того как языковые модели продолжают масштабироваться, крупные языковые модели (LLM) демонстрируют развивающиеся возможности в области обучения в контексте (ICL), что позволяет им решать языковые задачи, предваряя несколько демонстраций в контексте (ICDs) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки крупных мультимодальных моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с серьезной проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это свидетельствует о том, что LMM не достигают эффективного согласования между мультимодальными демонстрациями и выходными данными модели. Для решения этой проблемы мы предлагаем Оптимизацию прямого предпочтения демонстрации символами (SymDPO). Конкретно, SymDPO стремится нарушить традиционный подход к созданию мультимодальных демонстраций, заменяя текстовые ответы в примерах на случайные символы. Это заставляет модель внимательно анализировать изображения в демонстрациях и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы проверяем эффективность этого метода на нескольких тестовых наборах, демонстрируя, что с помощью SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать эти знания для лучшего ответа на вопросы.

Как LLM могут следовать информационным нитям в огромных контекстах?

По мере увеличения контекстных ограничений крупных языковых моделей (LLMs), расширяется и диапазон возможных приложений и последующих функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям часто разнородных документов, содержащих в основном нерелевантную информацию. LLMs с длинным контекстом кажутся хорошо приспособленными для такого рода сложного поиска и анализа информации, который традиционно оказывался затратным и трудоемким. Однако, несмотря на быстрые достижения в разработке моделей с более длинным контекстом за последние годы, наше понимание того, насколько эффективно LLMs используют свой контекст, не успевает за этими изменениями. Для решения этой проблемы мы проводим серию экспериментов по извлечению информации, предназначенных для оценки возможностей 17 ведущих LLMs, таких как их способность следить за потоками информации через контекстное окно. Удивительно, но мы обнаружили, что многие модели обладают замечательной способностью к многопоточности: они способны одновременно следить за несколькими потоками информации без значительного снижения производительности. Тем не менее, для многих моделей мы находим, что фактический предел контекста значительно меньше, чем поддерживаемая длина контекста, причем точность снижается по мере увеличения контекстного окна. Наше исследование также подчеркивает важный момент, что количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно различающемуся количеству написанных символов. Мы публикуем наш код и данные экспериментов с длинным контекстом.

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.