Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "accuracy"

MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

Недавние методы видеомонтажа на основе ИИ позволили пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние методы видеомонтажа без предварительной тренировки в основном сосредоточены на глобальных изменениях или редактировании одного объекта, что может привести к нежелательным изменениям в других частях видео. Когда несколько объектов требуют локализованных изменений, существующие методы сталкиваются с такими проблемами, как неточное редактирование, утечка редактирования и нехватка подходящих датасетов и метрик для оценки. Чтобы преодолеть эти ограничения, мы предлагаем нулевую многокомпонентную видеомонтажную структуру, названную MIVE. MIVE — это универсальная маско-ориентированная структура, не предназначенная для конкретных объектов (например, людей). MIVE вводит два ключевых модуля: (i) Разделенное многокомпонентное выборка (DMS), чтобы предотвратить утечку редактирования, и (ii) Вероятностное перераспределение на основе объектов (IPR), чтобы обеспечить точную локализацию и достоверное редактирование. Кроме того, мы представляем наш новый датасет MIVE с разнообразными видеосценариями и вводим Оценку точности между экземплярами (CIA) для оценки утечки редактирования в задачах многокомпонентного видеомонтажа. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит современные передовые методы по верности редактирования, точности и предотвращению утечек, устанавливая новый стандарт для многокомпонентного видеомонтажа. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/.

Сжатая цепочка размышлений: эффективное рассуждение через плотные представления

Декодирование с цепочкой размышлений (CoT) позволяет языковым моделям улучшать эффективность рассуждений за счет высокой задержки генерации в декодировании. В недавних предложениях были изучены варианты токенов размышлений, термин, который мы вводим и который относится к специальным токенам, используемым во время вывода, чтобы позволить дополнительным вычислениям. Предыдущие работы рассматривали токены размышлений в виде последовательностей фиксированной длины, взятых из дискретного набора встраиваний. Здесь мы предлагаем Сжатую Цепочку Размышлений (CCoT) — структуру для генерации содержательных и непрерывных токенов размышлений переменной длины. Сгенерированные токены размышлений являются сжатыми представлениями явных цепочек рассуждений, и наш метод может быть применен к стандартным языковым моделям декодеров. В ходе экспериментов мы иллюстрируем, как CCoT позволяет дополнительные рассуждения над плотными содержательными представлениями, чтобы достичь соответствующих улучшений в точности. Более того, улучшения рассуждений могут быть адаптивно модифицированы по запросу путем контроля количества сгенерированных токенов размышлений.

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Мы представляем HumanEdit, высококачественный набор данных, вознагражденный людьми, специально разработанный для редактирования изображений под Anleitung, позволяющий точные и разнообразные манипуляции изображениями с помощью открытых текстовых инструкций. Предыдущие наборы данных редактирования крупномасштабного уровня часто включали минимальную обратную связь от человека, что приводило к проблемам с согласованием наборов данных с человеческими предпочтениями. HumanEdit преодолевает этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. С тщательно отобранными данными HumanEdit включает 5751 изображение и требует более 2500 часов человеческих усилий на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач редактирования изображений. Набор данных включает шесть различных типов инструкций редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывающих широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, а для подмножества данных мы обеспечиваем, чтобы инструкции были достаточно подробными для поддержки редактирования без масок. Более того, HumanEdit предлагает всеобъемлющее разнообразие и высокое разрешение 1024 на 1024 контента, полученного из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью содействия будущим исследованиям и установления оценочных стандартов в области редактирования изображений мы публикуем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

U-MATH: Новый стандарт для оценки математических навыков в LLM

Текущая оценка математических навыков в LLM ограничена, поскольку существующие эталоны либо относительно малы, сосредоточены преимущественно на задачах начальной и средней школы, либо не имеют разнообразия по темам. Более того, включение визуальных элементов в задачи остается в значительной степени недостаточно исследованным. Чтобы устранить эти пробелы, мы представляем U-MATH, новый эталон из 1100 неопубликованных открытых университетских задач, извлеченных из учебных материалов. Он сбалансирован по шести основным предметам, при этом 20% составляют мультимодальные задачи. Учитывая открытый характер задач U-MATH, мы используем LLM для оценки правильности сгенерированных решений. С этой целью мы выпускаем mu-MATH, набор данных для оценки возможностей LLM в оценке решений. Оценка LLM общего назначения, специализированных по математике и мультимодальных подчеркивает сложности, представляемые U-MATH. Наши результаты показывают, что LLM достигают максимальной точности всего 63% по текстовым задачам и даже более низких 45% по визуальным задачам. Оценка решений представляет собой сложную задачу для LLM, при этом лучший LLM-судья имеет F1-оценку 80% по mu-MATH.

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

VLsI: Вербализация слоев для взаимодействия в больших языковых моделях

Недавний всплеск высококачественных образцов визуальной настройки инструкций от закрытых моделей изображения-языка (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей приносит значительные вычислительные проблемы, особенно для развертывания на устройствах с ограниченными ресурсами, таких как мобильные платформы и роботы. Чтобы решить эту проблему, мы предлагаем VLsI: Вербализированные Слои-в-Взаимодействия, новую семью VLM размером 2B и 7B, которая приоритизирует эффективность без ущерба для точности. VLsI использует уникальный процесс дистилляции по слоям, вводя промежуточные "вербализаторы", которые сопоставляют особенности каждого слоя с пространством естественного языка, позволяя меньшим VLM гибко соответствовать процессам вывода больших VLM. Этот подход смягчает нестабильность обучения, часто возникающую при имитации вывода, и выходит за рамки обычной настройки последнего слоя, выравнивая прогрессию по слоям меньших VLM с прогрессией больших. Мы валидируем VLsI на десяти сложных эталонах визуального языка, достигая заметных приростов производительности (11.0% для 2B и 17.4% для 7B) по сравнению с GPT-4V без необходимости масштабирования модели, слияния или архитектурных изменений.

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

От CISC к RISC: Перевод Ассемблерного Кода с Помощью Языковых Моделей

Переход с архитектуры x86 на ARM становится все более распространенным в различных областях, в первую очередь благодаря энергоэффективности ARM и улучшенной производительности в традиционных секторах. Однако, этот сдвиг в архитектуре ISA представляет собой значительные вызовы, в основном из-за обширной наследственной экосистемы программного обеспечения x86 и отсутствия переносимости между проприетарными экосистемами и программными стеками. В данной статье представлен CRT, легковесный транспайлер на базе LLM, который автоматически преобразует ассемблер x86 в ассемблер ARM. Наш подход преодолевает фундаментальный архитектурный разрыв между CISC-архитектурой x86 и RISC-архитектурой ARM, сохраняя семантику программы и оптимизируя производительность. Мы оцениваем CRT на различных реальных приложениях, достигая точности перевода 79.25% с x86 на ARMv5 по нашему обширному тестовому набору и точности 88.68% с x86 на RISC-V. В практических внедрениях на оборудовании Apple M2 (ARMv8) наш транспилированный код обеспечивает ускорение в 1.73 раза по сравнению с виртуализационным движком Apple Rosetta 2, при этом обеспечивая 2.41-кратное улучшение использования памяти и 1.47-кратное улучшение энергопотребления. Через тестирование и анализ мы показываем, что CRT успешно преодолевает разрыв между CISC и RISC и генерирует корректно исполняемый код RISC, несмотря на барьеры "языка" машины. Мы публикуем наш код, модели, обучающие наборы данных и бенчмарки по адресу: https://ahmedheakl.github.io/asm2asm/.

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

Гимба: Архитектура с гибридными головами для малых языковых моделей

Мы представляем Hymba, семейство небольших языковых моделей, использующих гибридную параллельную архитектуру голов, которая интегрирует механизмы внимания трансформеров с моделями состояния пространства (SSM) для повышения эффективности. Головы внимания обеспечивают высокую разрешающую способность воспоминаний, в то время как головы SSM позволяют эффективно обобщать контекст. Кроме того, мы вводим обучаемые мета-токены, которые добавляются в начале запросов, хранят критическую информацию и снижают "вынужденное внимание", связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения обмена ключ-значение (KV) между слоями и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В процессе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и наблюдали значительные преимущества нашей предложенной архитектуры. В частности, Hymba достигает рекордных результатов среди малых языковых моделей: наша модель Hymba-1.5B-Base превосходит все публичные модели с менее чем 2 миллиардами параметров по производительности и даже превосходит Llama-3.2-3B с на 1.32% выше средней точностью, уменьшением размера кэша в 11.67 раз и увеличением пропускной способности в 3.49 раза.

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

Извлечение Последовательности Действий Пользователя из Записей Экрана с Помощью ВЛМ

Видеозаписи активности пользователей, особенно записи с рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в области моделей видео-языкового взаимодействия (VLMs) и их возрастающее использование в анализе видео, извлечение действий пользователя из записей с рабочего стола остается малоизученной областью. В данной статье мы устраняем этот пробел, предлагая два новых метода на основе VLMs для извлечения действий пользователя: прямой подход на основе кадров (DF), при котором образцы кадров напрямую вводятся в VLMs, и дифференциальный подход на основе кадров (DiffF), который включает в себя явные различия кадров, выявляемые с помощью методов компьютерного зрения. Мы оцениваем эти методы, используя базовый самосоставленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что подход DF достигает точности от 70% до 80% в определении действий пользователя, при этом извлеченные последовательности действий могут быть воспроизведены через автоматизацию роботизированных процессов. Мы обнаружили, что хотя VLMs показывают потенциал, включение явных изменений пользовательского интерфейса может ухудшить производительность, что делает подход DF более надежным. Эта работа представляет собой первое применение VLMs для извлечения последовательностей действий пользователя из записей рабочего стола, внося вклад в новые методы, бенчмарки и инсайты для будущих исследований.

Идентификация аппаратной и программной платформы для вывода модели

Теперь распространённой деловой практикой стало покупать доступ к выводу крупных языковых моделей (LLM) вместо самостоятельного хостинга из-за значительных начальных затрат на аппаратную инфраструктуру и энергопотребление. Однако, как покупатель, нет механизма для проверки подлинности рекламируемого сервиса, включая аппаратную платформу для обслуживания, например, что он действительно обслуживается с использованием NVIDIA H100. Кроме того, есть сообщения, предполагающие, что поставщики моделей могут предоставлять модели, немного отличающиеся от рекламируемых, часто для того, чтобы они могли работать на менее дорогом оборудовании. Таким образом, клиент платит премию за доступ к способной модели на более дорогом оборудовании, но в итоге обслуживается дешёвой (потенциально менее способной) моделью на более дешёвом оборудовании. В этой статье мы вводим понятие **вывод аппаратной и программной платформы (HSPI)** — метод для идентификации базовой архитектуры и программного стека (чёрного ящика) машинного обучения модели, основанный исключительно на её входно-выходном поведении. Наш метод использует врождённые различия различных архитектур и компиляторов для различения различных типов и программных стеков. Анализируя числовые паттерны в выводах модели, мы предлагаем классификационную рамку, способную точно идентифицировать используемую для вывода модели, а также базовую программную конфигурацию. Наши результаты демонстрируют возможность выведения типа из чёрных ящиков моделей. Мы оцениваем HSPI по моделям, обслуживаемым на различном реальном оборудовании, и находим, что в белом ящике мы можем различать между различными типами с точностью от 83.9% до 100%. Даже в чёрном ящике мы можем достигать результатов, которые в три раза выше точности случайного угадывания.

Улучшение выявления технических долгов в исходном коде Java с помощью обогащенного набора данных

Технический долг (TD) — это термин, используемый для описания дополнительной работы и затрат, которые возникают, когда разработчики выбирают быстрое и легкое решение проблемы, вместо более эффективного и продуманного, но требующего времени подхода. Самопризнанные технические долги (SATD) представляют собой особый вид технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самопризнанные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих методов сосредотачиваются на захвате ключевых токенов, связанных с различными категориями TD, пренебрегая богатой информацией, встроенной в сам исходный код. Недавние исследования были направлены на обнаружение SATD путем анализа комментариев, встроенных в исходный код, и было проведено мало работ, касающихся технических долгов, содержащихся в исходном коде. Чтобы заполнить этот пробел, в данном исследовании, через анализ комментариев и их связанного исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы создали первый набор данных технических долгов, идентифицированных через комментарии к коду, вместе с соответствующим исходным кодом. В ходе эмпирической оценки мы выяснили, что комментарии из полученного набора данных помогают улучшить производительность прогнозирования моделей обнаружения SATD. Более важно, что включение классифицированного исходного кода значительно улучшает точность прогнозирования различных типов технических долгов. В этом смысле наша работа двойственна: (i) Мы верим, что наш набор данных будет катализатором для будущих работ в данной области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технических долгов; (ii) Предложенные классификаторы могут служить базовыми моделями для других исследований по обнаружению TD с помощью созданного набора данных.

Связь между точностью обнаружения объектов, визуальной салиентностью и оценкой глубины

По мере развития методов обнаружения объектов, понимание их взаимосвязей с комплементарными визуальными задачами становится критически важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя основными визуальными задачами: предсказанием глубины и предсказанием визуальной значимости. Через обширные эксперименты с использованием моделей последнего поколения (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC, мы обнаружили, что визуальная значимость демонстрирует более сильные корреляции с точностью обнаружения объектов (mArho до 0.459 на Pascal VOC), по сравнению с предсказанием глубины (mArho до 0.283). Наш анализ выявил значительные вариации этих корреляций между категориями объектов, где большие объекты показывают значения корреляции в три раза выше, чем маленькие объекты. Эти результаты предполагают, что включение признаков визуальной значимости в архитектуры обнаружения объектов может быть более выгодным, чем информация о глубине, особенно для определённых категорий объектов. Обнаруженные вариации, специфичные для категорий, также предоставляют понимание для целенаправленной инженерии признаков и улучшений в дизайне наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

Торговля точностью и производительностью в квантовании LLM: Обзор и анализ

Несмотря на популярность квантизации крупных языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромиссов между точностью и производительностью, связанных с различными форматами квантизации. Мы представляем всестороннее эмпирическое исследование точности квантизированных моделей, оценивая популярные форматы квантизации (FP8, INT8, INT4) на академических тестах и реальных задачах для всей семейства моделей Llama-3.1. Кроме того, наше исследование анализирует различия в тексте, генерируемом квантизированными моделями, по сравнению с их не сжатыми аналогами. Помимо тестов, мы также представляем несколько улучшений в квантизации, которые позволили нам достичь результатов по восстановлению точности на уровне лучших в своем классе. Наше исследование, включающее более 500,000 индивидуальных оценок, дает несколько ключевых выводов: (1) квантизация весов и активаций в формате FP8 (W8A8-FP) является без потерь на всех масштабах моделей, (2) квантизация весов и активаций в формате INT8 (W8A8-INT), при правильной настройке, приводит к неожиданно низкому снижению точности на 1-3%, и (3) квантизация только весов в формате INT4 (W4A16-INT) является конкурентоспособной по сравнению с 8-битной целочисленной квантизацией весов и активаций. Для ответа на вопрос о «лучшем» формате для конкретной среды развертывания, мы проводим анализ производительности вывода с использованием популярной открытой платформы vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает наилучшую стоимостную эффективность для синхронных развертываний, а также для асинхронного развертывания на GPU среднего уровня. В то же время, форматы W8A8 превосходят в асинхронном развертывании с «непрерывной пакетной обработкой» средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантизированных LLM в различных масштабах и требованиях к производительности.

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.

Подход на основе сети указателей для совместной извлечения и обнаружения многометочных многоклассовых намерений

В задачно-ориентированных диалоговых системах распознавание намерений является ключевым для интерпретации запросов пользователя и предоставления соответствующих ответов. Существующие исследования в основном рассматривают простые запросы с единственным намерением, не предлагая эффективных систем для обработки сложных запросов с несколькими намерениями и извлечения различных сегментов намерений. Кроме того, отсутствуют многоязычные, многонамеренные наборы данных. Данное исследование охватывает три критических аспекта: извлечение нескольких сегментов намерений из запросов, обнаружение нескольких намерений и разработку многоязычного набора данных с множественными метками намерений. Мы представляем новый набор данных для многомерной многоклассовой классификации намерений (MLMCID-dataset), созданный на основе существующих эталонных наборов данных. Также мы предлагаем архитектуру на основе указательной сети (MLMCID) для извлечения сегментов намерений и обнаружения множества намерений с использованием грубых и детализированных меток в форме секстетов. Комплексный анализ показывает превосходство нашей системы, основанной на указательной сети, над базовыми подходами в отношении точности и F1-оценки на различных наборах данных.

DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео

Отслеживание плотного 3D движения с монокулярных видеозаписей остается сложной задачей, особенно когда целью является точность на уровне пикселей в течение длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения по всему видео. Наш подход использует совместный глобально-локальный механизм внимания для отслеживания с пониженным разрешением, за которым следует апсемплер на основе трансформера для достижения высокоточных прогнозов в высоком разрешении. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в большом масштабе, работая более чем в 8 раз быстрее предыдущих методов и достигая рекордной точности. Более того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких тестовых площадках, достигая новых рекордных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предлагает надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.