Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "classification"

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

Изучение 3D-представлений с помощью процедурных 3D-программ

Самонадзорное обучение (self-supervised learning) выделяется как перспективный метод для получения переносимых 3D представлений из неразмеченных облаков 3D точек. В отличие от 2D изображений, которые широко доступны, получение 3D активов требует специализированных знаний или профессионального оборудования для 3D сканирования, что затрудняет масштабирование и вызывает вопросы авторского права. Чтобы решить эти проблемы, мы предлагаем обучение 3D представлений на основе процедурных 3D программ, которые автоматически генерируют 3D формы с использованием простых примитивов и аугментаций. Замечательно, что несмотря на отсутствие семантического содержания, 3D представления, обученные на этом синтезированном наборе данных, показывают результаты, сравнимые с передовыми представлениями, обученными на семантически узнаваемых 3D моделях (например, самолетах), в различных задачах 3D, включая классификацию форм, сегментацию частей и заполнение маскированных облаков точек. Наш анализ также указывает, что текущие методы самонадзорного обучения в основном захватывают геометрические структуры, а не высокие семантические уровни.

Идентификация аппаратной и программной платформы для вывода модели

Теперь распространённой деловой практикой стало покупать доступ к выводу крупных языковых моделей (LLM) вместо самостоятельного хостинга из-за значительных начальных затрат на аппаратную инфраструктуру и энергопотребление. Однако, как покупатель, нет механизма для проверки подлинности рекламируемого сервиса, включая аппаратную платформу для обслуживания, например, что он действительно обслуживается с использованием NVIDIA H100. Кроме того, есть сообщения, предполагающие, что поставщики моделей могут предоставлять модели, немного отличающиеся от рекламируемых, часто для того, чтобы они могли работать на менее дорогом оборудовании. Таким образом, клиент платит премию за доступ к способной модели на более дорогом оборудовании, но в итоге обслуживается дешёвой (потенциально менее способной) моделью на более дешёвом оборудовании. В этой статье мы вводим понятие **вывод аппаратной и программной платформы (HSPI)** — метод для идентификации базовой архитектуры и программного стека (чёрного ящика) машинного обучения модели, основанный исключительно на её входно-выходном поведении. Наш метод использует врождённые различия различных архитектур и компиляторов для различения различных типов и программных стеков. Анализируя числовые паттерны в выводах модели, мы предлагаем классификационную рамку, способную точно идентифицировать используемую для вывода модели, а также базовую программную конфигурацию. Наши результаты демонстрируют возможность выведения типа из чёрных ящиков моделей. Мы оцениваем HSPI по моделям, обслуживаемым на различном реальном оборудовании, и находим, что в белом ящике мы можем различать между различными типами с точностью от 83.9% до 100%. Даже в чёрном ящике мы можем достигать результатов, которые в три раза выше точности случайного угадывания.

Обнаружение и смягчение ложных корреляций в моделях обработки изображений и языка

Модели, объединяющие зрение и язык (VLM), которые были тонко настроены, часто улавливают ложные корреляции между чертами изображения и текстовыми атрибутами, что приводит к снижению эффективности нулевого шага на этапе тестирования. Существующие методы для устранения ложных корреляций (i) в основном работают на уровне всего изображения, а не вмешиваются непосредственно в детализированные черты изображения, и (ii) в большинстве своем разработаны для одномодальных условий. В данной работе мы представляем RaVL, который рассматривает устойчивость VLM с детализированной точки зрения, обнаруживая и устраняя ложные корреляции с использованием локальных черт изображения, а не работая на уровне всего изображения. При наличии тонко настроенной VLM, RaVL сначала обнаруживает ложные корреляции, используя подход кластеризации на уровне регионов для выявления точных черт изображения, способствующих ошибкам нулевого шага в классификации. Затем, RaVL устраняет выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, которая позволяет VLM сосредоточиться на релевантных областях и игнорировать ложные связи во время тонкой настройки. Мы оцениваем RaVL на 654 VLM с различными архитектурами моделей, областями данных и изученными ложными корреляциями. Наши результаты показывают, что RaVL точно обнаруживает (улучшение на 191% по сравнению с ближайшим базовым уровнем) и устраняет (улучшение на 8.2% по точности классификации в худшей группе изображений) ложные корреляции. Качественные оценки на VLM общего назначения и медицинской области подтверждают наши выводы.

Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей

Смешение кодов, интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения, является широко распространенным лингвистическим явлением, особенно в многоязычных обществах. В Индии пользователи социальных сетей часто ведут смешанные коды разговоров с использованием латинского алфавита, особенно среди мигрантских сообществ, которые создают онлайн-группы для обмена актуальной местной информацией. В данной статье рассматриваются проблемы извлечения актуальной информации из смешанных кодов разговоров, в частности, из бенгальского языка, транслитерированного в латиницу и смешанного с английским. Это исследование предлагает новый подход к решению этих проблем путем разработки механизма для автоматического выявления наиболее релевантных ответов из смешанных кодов разговоров. Мы провели эксперименты на наборе данных, состоящем из запросов и документов из Facebook, а также файлов релевантности запросов (QRels), чтобы помочь в этой задаче. Наши результаты демонстрируют эффективность нашего подхода в извлечении значимой информации из сложных, смешанных кодов цифровых разговоров, что вносит вклад в более широкую область обработки естественного языка в многоязычных и неформальных текстовых средах. Мы используем GPT-3.5 Turbo через запросы, а также используем последовательную природу релевантных документов для построения математической модели, которая помогает обнаруживать релевантные документы, соответствующие запросу.

Пространство вложений слов: от теории к практике

Пространство вложений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задач. Мы указываем, что большинство подходов к моделированию, исправлению и измерению симметрии пространства вложений неявно предполагают, что частоты слов равномерны; на самом деле, частоты слов следуют крайне неравномерному распределению, известному как закон Ципфа. Удивительно, но простое применение взвешенного по эмпирической частоте слов PCA отбеливания, соответствующего закону Ципфа, значительно улучшает производительность задач, превосходя установленные базовые показатели. С теоретической точки зрения, как наш подход, так и существующие методы можно четко категоризировать: представления слов распределены в соответствии с экспоненциальной семьей с либо равномерными, либо цепфиановыми базовыми мерами. Приняв последний подход, мы можем естественным образом выделить информативные слова с низкой частотой с точки зрения их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также с точки зрения функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и языковые модели без головы, работают хорошо именно потому, что их словесные вложения закодировали эмпирическую частоту слов в лежащую в основе вероятностную модель.

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.