Ай Дайджест - категория efficiency

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

2024-12-17explainability scalability efficiency

ByteLatentTransformer: Новая эра в архитектуре LLM

Мы представляем Byte Latent Transformer (BLT) — новую архитектуру LLM на уровне байтов, которая впервые достигает производительности LLM на основе токенизации в масштабе с существенными улучшениями в эффективности вывода и надежности. BLT кодирует байты в патчи динамического размера, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных мощностей и возможностей модели там, где необходимость в увеличении сложности данных требует этого. Мы представляем первое исследование о масштабировании моделей на уровне байтов с контролируемым количеством операций с плавающей запятой (FLOP) до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Эффективность как обучения, так и вывода улучшается благодаря динамическому выбору длинных патчей, когда данные предсказуемы, наряду с качественными улучшениями в способности к рассуждению и обобщению в условиях длинного хвоста. В целом, при фиксированных затратах на вывод, BLT демонстрирует значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патчей, так и размер модели.

2024-12-17efficiency parameters inference

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

2024-12-16reflows efficiency editing

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

2024-12-13dataset comprehension speech

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

2024-12-13dimensionality compression efficiency

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

2024-12-11model tokenizer multimodal

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

2024-12-11pruning resolution efficiency

Раскрытие сложности памяти в агентах с подкрепляющим обучением: подход к классификации и оценке

Внедрение памяти в агентов имеет решающее значение для выполнения множества задач в области обучения с подкреплением (RL). В частности, память важна для задач, требующих использования прошлой информации, адаптации к новым условиям и повышения эффективности выборки. Однако термин «память» охватывает широкий спектр понятий, что, в сочетании с отсутствием единой методологии для проверки памяти агента, приводит к ошибочным суждениям о возможностях памяти агентов и препятствует объективному сравнению с другими агентами, наделенными памятью. Эта статья направлена на упрощение концепции памяти в RL, предоставляя практические и точные определения типов памяти агента, таких как долговременная и краткосрочная память, а также декларативная и процедурная память, вдохновленные когнитивной наукой. Используя эти определения, мы категоризируем различные классы памяти агентов, предлагаем надежную экспериментальную методологию для оценки возможностей памяти агентов RL и стандартизируем оценки. Более того, мы эмпирически демонстрируем важность соблюдения предложенной методологии при оценке различных типов памяти агентов, проводя эксперименты с разными агентами RL и последствиями ее нарушения.

2024-12-10reinforcement methodology efficiency

Turbo3D: Ультрабыстрое Генерирование 3D Моделей из Текста

Мы представляем Turbo3D, ультрабыструю систему текст в 3D, способную генерировать высококачественные активы с использованием гауссового сплэттинга менее чем за одну секунду. Turbo3D использует быстрый 4-ступенчатый генератор диффузий с 4 видами и эффективный рекомпозитор с гауссовым методом, оба работающие в латентном пространстве. 4-ступенчатый генератор с 4 видами является моделью студента, полученной с помощью нового подхода Dual-Teacher, который побуждает студента учиться согласованности видов у многовидового преподавателя и фотореализму у одновидового преподавателя. Перемещая входные данные рекомпозитора с гауссовым методом из пространстве пикселей в латентное пространство, мы устраняем лишнее время декодирования изображений и уменьшаем длину последовательности трансформатора наполовину для максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими эталонами, при этом работает за меньшую долю их времени.

2024-12-10diffusion turbo3d efficiency

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

2024-12-09text editing inversion

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

2024-12-06models capacity evaluation

VisionZip: Устранение избыточности визуальных токенов в моделях "визуальный-язык"

Недавние достижения в моделях связи «визуальный-язык» повысили эффективность, увеличив длину визуальных токенов, сделав их значительно длиннее текстовых токенов и значительно увеличив вычислительные затраты. Тем не менее, мы наблюдаем, что визуальные токены, созданные популярными визуальными энкодерами, такими как CLIP и SigLIP, содержат значительную избыточность. Чтобы решить эту проблему, мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для подачи в языковую модель, уменьшая визуальную токенизаторную избыточность и улучшая эффективность при сохранении производительности модели. Предложенный VisionZip может широко применяться к задачам понимания изображений и видео и хорошо подходит для многоповоротных диалогов в реальных сценариях, где предыдущие методы, как правило, показывают низкие результаты. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий самый лучший метод как минимум на 5% в производительности во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительного заполнения в 8 раз и позволяя модели LLaVA-Next 13B выводить быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто на увеличении длины токенов. Наш код доступен на https://github.com/dvlab-research/VisionZip .

2024-12-06efficiency models tokens

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

2024-12-06prediction parallel tokens

p-MoD: Эффективные Мультимодальные Большие Языковые Модели

Несмотря на выдающиеся результаты многомодальных больших языковых моделей (MLLM) в различных задачах, значительные затраты на обучение и вывод мешают их развитию. Большая часть вычислений связана с огромным объемом визуальных токенов, обрабатываемых декодером трансформера. В этой статье мы предлагаем создавать эффективные MLLM, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визуальные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLM не является тривиальной задачей. Чтобы справиться с проблемами стабильности обучения и вывода, а также ограниченными данными для обучения, мы адаптируем модуль MoD с помощью двух новых разработок: тангентально-контролируемой нормализации весов (TanhNorm) и симметричного переобучения токенов (STRing). Более того, мы наблюдаем, что визуальные токены проявляют более высокую избыточность в более глубоких слоях, и, следовательно, разрабатываем стратегию прогрессивного уменьшения соотношения (PRD), которая постепенно сокращает коэффициент удержания токенов слой за слоем, используя смещенный косинусный график. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно увеличивая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями по 14 контрольным точкам. Наша модель, p-MoD, сравнивается или даже превосходит производительность базовых моделей, при этом затрачивая всего 55,6% TFLOPs и 53,8% хранения кэша KV во время вывода и 77,7% GPU-часов во время обучения.

2024-12-06reweighting multimodal efficiency

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.

2024-12-06efficiency compression deployment

Адаптивный Инференс Мульти-Модальных LLM через Слияние и Обрезку Токенов

Большие языковые модели (LLM) позволили создать мультимодальные LLM, которые демонстрируют высокое понимание визуальных данных, таких как изображения и видео. Однако эти модели обычно полагаются на обширные визуальные токены от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в условиях ограниченных ресурсов и для задач с длинным контекстом. В этой работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкому диапазону требований по эффективности с минимальным падением производительности. Наш метод состоит из a) итеративного объединения токенов на основе сходства встраиваний перед LLM и b) прогрессивного отсечения токенов внутри слоев LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных бенчмарках видео и изображений показывают, что наш метод значительно снижает вычислительную нагрузку (например, 7-кратное снижение FLOPs), сохраняя производительность видео и изображений LLM. Кроме того, при аналогичных вычислительных затратах наш метод превосходит современные методы в понимании длинного видео (например, +4,6 на MLVU). Кроме того, наш углубленный анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая руководство для будущих исследований в проектировании эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.

2024-12-04pruning llms inference

Эффективное отслеживание объектов в видео с помощью EfficientTrackAnything

Модель Segment Anything Model 2 (SAM 2) зарекомендовала себя как мощный инструмент для сегментации объектов в видео и отслеживания всего. Ключевыми компонентами SAM 2, которые обеспечивают впечатляющие результаты сегментации видеообъектов, являются большой многоступенчатый энкодер изображений для извлечения характеристик кадров и механизм памяти, который хранит контексты памяти из прошлых кадров, чтобы помочь сегментации текущего кадра. Высокая вычислительная сложность многоступенчатого энкодера изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации видеообъектов на мобильных устройствах. Для решения этой проблемы мы предлагаем EfficientTAMs, легковесные модели отслеживания всего, которые обеспечивают высококачественные результаты с низкой задержкой и небольшим размером модели. Наша идея основана на пересмотре простого, неиерархического Vision Transformer (ViT) в качестве энкодера изображений для сегментации объектов в видео, а также на введении эффективного модуля памяти, который уменьшает сложность как для извлечения характеристик кадров, так и для вычисления памяти для сегментации текущего кадра. Мы берем ванильные легковесные ViTs и эффективный модуль памяти для построения EfficientTAMs и тренируем модели на наборах данных SA-1B и SA-V для задач сегментации объектов в видео и отслеживания всего. Мы оцениваем несколько бенчмарков сегментации видео, включая полусупервизированную VOS и запрашиваемую сегментацию видео, и находим, что наша предложенная EfficientTAM с ванильным ViT демонстрирует сопоставимые результаты с моделью SAM 2 (HieraB+SAM 2) с ускорением примерно в 2 раза на A100 и сокращением параметров примерно на 2,4 раза. В задачах сегментации изображений с учетом всего, наши EfficientTAM также показывают лучшие результаты по сравнению с оригинальной SAM с ускорением примерно в 20 раз на A100 и сокращением параметров примерно на 20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAM могут работать со скоростью около 10 FPS для выполнения сегментации объектов в видео с разумным качеством, подчеркивая возможности маленьких моделей для приложений сегментации объектов в видео на устройстве.

2024-12-03transformer efficiency performance

TinyFusion: Ускорение диффузионных трансформеров с помощью обрезки слоев

Диффузионные трансформаторы продемонстрировали выдающиеся способности в генерации изображений, но часто имеют чрезмерную параметризацию, что приводит к значительным накладным расходам на вывод в реальных приложениях. В этой работе мы представляем TinyFusion — метод обрезки глубины, предназначенный для удаления избыточных слоев из диффузионных трансформаторов с помощью обучения от начала до конца. Основной принцип нашего подхода заключается в создании обрезанной модели с высокой восстановимостью, что позволяет ей восстанавливать высокую производительность после дообучения. Для этого мы представляем дифференцируемую технику выборки, чтобы сделать обрезку обучаемой, в паре с совместно оптимизируемым параметром для имитации будущего дообучения. В то время как предыдущие работы сосредотачиваются на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после дообучения. Экспериментальные результаты показывают, что эта обучаемая парадигма предлагает значительные преимущества для обрезки слоев диффузионных трансформаторов, превосходя существующие методы, основанные на важности и ошибках. Кроме того, TinyFusion демонстрирует сильную генерализацию на различных архитектурах, таких как DiT, MAR и SiT. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформатор с затратами менее 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с индексом FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

2024-12-03transformers diffusion generalization

VLsI: Вербализация слоев для взаимодействия в больших языковых моделях

Недавний всплеск высококачественных образцов визуальной настройки инструкций от закрытых моделей изображения-языка (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей приносит значительные вычислительные проблемы, особенно для развертывания на устройствах с ограниченными ресурсами, таких как мобильные платформы и роботы. Чтобы решить эту проблему, мы предлагаем VLsI: Вербализированные Слои-в-Взаимодействия, новую семью VLM размером 2B и 7B, которая приоритизирует эффективность без ущерба для точности. VLsI использует уникальный процесс дистилляции по слоям, вводя промежуточные "вербализаторы", которые сопоставляют особенности каждого слоя с пространством естественного языка, позволяя меньшим VLM гибко соответствовать процессам вывода больших VLM. Этот подход смягчает нестабильность обучения, часто возникающую при имитации вывода, и выходит за рамки обычной настройки последнего слоя, выравнивая прогрессию по слоям меньших VLM с прогрессией больших. Мы валидируем VLsI на десяти сложных эталонах визуального языка, достигая заметных приростов производительности (11.0% для 2B и 17.4% для 7B) по сравнению с GPT-4V без необходимости масштабирования модели, слияния или архитектурных изменений.

2024-12-03tuning accuracy efficiency

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

2024-12-02transformers models dynamics

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

2024-12-02generalization dataset model

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

2024-12-02efficiency adaptability manipulation

Эффективное декодирование в визуальном авто-регрессионном моделировании: концепция Collaborative Decoding

2024-11-28scalability generative modeling

EfficientViM: Эффективная архитектура для компьютерного зрения

2024-11-27architecture tokens fusion

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

2024-11-27transformer attention sparse

От CISC к RISC: Перевод Ассемблерного Кода с Помощью Языковых Моделей

Переход с архитектуры x86 на ARM становится все более распространенным в различных областях, в первую очередь благодаря энергоэффективности ARM и улучшенной производительности в традиционных секторах. Однако, этот сдвиг в архитектуре ISA представляет собой значительные вызовы, в основном из-за обширной наследственной экосистемы программного обеспечения x86 и отсутствия переносимости между проприетарными экосистемами и программными стеками. В данной статье представлен CRT, легковесный транспайлер на базе LLM, который автоматически преобразует ассемблер x86 в ассемблер ARM. Наш подход преодолевает фундаментальный архитектурный разрыв между CISC-архитектурой x86 и RISC-архитектурой ARM, сохраняя семантику программы и оптимизируя производительность. Мы оцениваем CRT на различных реальных приложениях, достигая точности перевода 79.25% с x86 на ARMv5 по нашему обширному тестовому набору и точности 88.68% с x86 на RISC-V. В практических внедрениях на оборудовании Apple M2 (ARMv8) наш транспилированный код обеспечивает ускорение в 1.73 раза по сравнению с виртуализационным движком Apple Rosetta 2, при этом обеспечивая 2.41-кратное улучшение использования памяти и 1.47-кратное улучшение энергопотребления. Через тестирование и анализ мы показываем, что CRT успешно преодолевает разрыв между CISC и RISC и генерирует корректно исполняемый код RISC, несмотря на барьеры "языка" машины. Мы публикуем наш код, модели, обучающие наборы данных и бенчмарки по адресу: https://ahmedheakl.github.io/asm2asm/.

2024-11-26cisc efficiency llm

Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

Поле синтеза новых видов сделало значительные шаги вперед благодаря развитию методов полей яркости. Однако большинство техник полей яркости гораздо лучше справляются с интерполяцией новых видов, чем с экстраполяцией, где синтезируемые новые виды значительно отличаются от наблюдаемых тренировочных видов. Мы разработали ViewExtrapolator, подход к синтезу новых видов, который использует генеративные приоритеты стабильной видеодиффузии (SVD) для реалистичной экстраполяции новых видов. Переработав процесс удаления шума SVD, ViewExtrapolator улучшает качество видов, подверженных артефактам, которые отображаются полями яркости, значительно повышая ясность и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором новых видов, который может работать с различными типами 3D-рендеринга, такими как виды, отображаемые из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, ViewExtrapolator не требует тонкой настройки SVD, что делает его эффективным по данным и вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции новых видов. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

2024-11-25denoising efficiency diffusion

Гимба: Архитектура с гибридными головами для малых языковых моделей

Мы представляем Hymba, семейство небольших языковых моделей, использующих гибридную параллельную архитектуру голов, которая интегрирует механизмы внимания трансформеров с моделями состояния пространства (SSM) для повышения эффективности. Головы внимания обеспечивают высокую разрешающую способность воспоминаний, в то время как головы SSM позволяют эффективно обобщать контекст. Кроме того, мы вводим обучаемые мета-токены, которые добавляются в начале запросов, хранят критическую информацию и снижают "вынужденное внимание", связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения обмена ключ-значение (KV) между слоями и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В процессе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и наблюдали значительные преимущества нашей предложенной архитектуры. В частности, Hymba достигает рекордных результатов среди малых языковых моделей: наша модель Hymba-1.5B-Base превосходит все публичные модели с менее чем 2 миллиардами параметров по производительности и даже превосходит Llama-3.2-3B с на 1.32% выше средней точностью, уменьшением размера кэша в 11.67 раз и увеличением пропускной способности в 3.49 раза.

2024-11-22architecture accuracy attention

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

2024-11-21matmul adaptive attention

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

2024-11-21embedding training precision

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

2024-11-20multilingual performance evaluation

Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Согласование больших языковых моделей (LLMs) с человеческими предпочтениями остается ключевым вызовом. Хотя посттренировочные техники, такие как Обучение с подкреплением от человеческой обратной связи (RLHF) и Оптимизация прямых предпочтений (DPO), достигли заметного успеха, они часто вводят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем Оптимизацию предпочтений на уровне признаков (FPO), новый метод, разработанный для упрощения процесса согласования при сохранении стабильности. FPO использует предобученные Разреженные Автокодировщики (SAEs) и вводит ограничения на уровне признаков, что позволяет проводить эффективное, вынужденное разрежением согласование. Наш подход отличается эффективностью за счет использования разреженных признаков, активированных в хорошо обученном разреженном автокодировщике, и качества последовательного дивергенции Кульбака-Лейблера с использованием оффлайн-референса на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения на 5.08% в проценте побед при значительно более низких вычислительных затратах по сравнению с лучшими на сегодняшний день базовыми моделями, что делает его перспективным решением для эффективного и контролируемого согласования LLM.

2024-11-14sparsity constraints optimization

Оптимизация выбора данных для тонкой настройки больших языковых моделей: Введение в DELIFT

Тонкая настройка крупных языковых моделей (LLMs) необходима для улучшения их производительности на конкретных задачах, но часто требует значительных ресурсов из-за избыточных или неинформативных данных. Чтобы решить эту проблему неэффективности, мы представляем DELIFT (Data Efficient Language model Instruction Fine-Tuning), новый алгоритм, который систематически оптимизирует выбор данных на трех ключевых этапах тонкой настройки: (1) настройка по инструкциям, (2) специфическая для задачи тонкая настройка (например, рассуждения, ответы на вопросы) и (3) непрерывная тонкая настройка (например, внедрение новых версий данных). В отличие от существующих методов, которые сосредотачиваются на оптимизации одного этапа или полагаются на вычислительно сложные вычисления градиентов, DELIFT действует эффективно на всех этапах. Центральным элементом нашего подхода является метрика парной полезности, которая определяет, насколько полезен образец данных для улучшения ответов модели на другие образцы, эффективно измеряя информационную ценность относительно текущих возможностей модели. Используя различные субмодулярные функции, применяемые к этой метрике, DELIFT выбирает разнообразные и оптимальные подмножества данных, которые полезны на всех этапах тонкой настройки. Эксперименты на различных задачах и масштабах моделей показывают, что DELIFT может уменьшить объем данных для тонкой настройки до 70% без ущерба для производительности, предлагая значительную экономию вычислительных ресурсов и превосходя существующие методы по эффективности и результативности.

2024-11-11data optimization submodular

BitNet a4.8: Введение в 4-битные активации для 1-битных LLM

Недавние исследования 1-битовых крупномасштабных языковых моделей (LLM), таких как BitNet b1.58, показывают перспективное направление для снижения стоимости вывода LLM, сохраняя при этом их производительность. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битовых LLM. BitNet a4.8 использует гибридную стратегию квантования и разрежения для смягчения ошибок квантования, возникающих из-за выбросов в каналах. В частности, мы применяем 4-битные активации для входов в слои внимания и прямого распространения, в то время как промежуточные состояния разрежаются и затем подвергаются 8-битному квантованию. Обширные эксперименты показывают, что BitNet a4.8 достигает производительности, сравнимой с BitNet b1.58, при эквивалентных затратах на обучение, но при этом он быстрее работает на выводе, используя 4-битные (INT4/FP4) ядра. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный кэш KV, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.

2024-11-08performance cache quantization

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

2024-11-06benchmark language computation

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

2024-11-06feedback sampling bandits

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.

2024-11-05adaptation lmms benchmarks

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

2024-11-05dialect benchmark language