Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "annotation"

LiFT: Использование человеческой обратной связи для выравнивания моделей текст-видео

Недавние достижения в генеративных моделях преобразования текста в видео (T2V) продемонстрировали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видео с человеческими предпочтениями (например, точного отражения текстовых описаний), что особенно трудно решить, поскольку человеческие предпочтения по своей природе субъективны и сложно формализуемы как объективные функции. Поэтому в статье предлагается метод тонкой настройки LiFT, использующий человеческую обратную связь для согласования моделей T2V. Конкретно, мы сначала создаем набор данных аннотации человеческой оценки, LiFT-HRA, состоящий из примерно 10 000 аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческой оценки, измеряя согласование между данными видео и ожиданиями человека. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V, максимизируя взвешенную по вознаграждению вероятность. В качестве примера мы применяем наш конвейер к CogVideoX-2B, показывая, что тонко настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал человеческой обратной связи в улучшении согласования и качества синтезированных видео.

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

I,NST-IT: Усовершенствование многомодального понимания экземпляров через явную настройку визуальных подсказок

Большие мультимодальные модели (LMM) достигли значительных прорывов благодаря развитию настройки инструкций. Однако, хотя существующие модели могут понимать изображения и видео на целостном уровне, им все еще трудно осваивать понимание на уровне экземпляров, которое требует более тонкого восприятия и согласования. Понимание на уровне экземпляров имеет решающее значение, так как оно сосредоточено на конкретных элементах, которые нас больше всего интересуют. Увлекательно, что существующие работы показывают, что передовые LMM демонстрируют сильные способности понимания экземпляров, когда им предоставляются явные визуальные подсказки. Вдохновленные этим, мы представляем автоматизированный процесс аннотирования, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляров из изображений и видео с помощью явного визуального побуждения для руководства по экземплярам. Основываясь на этом процессе, мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров через настройку инструкций с явными визуальными подсказками. Inst-IT состоит из эталона для диагностики мультимодального понимания на уровне экземпляров, набора данных для настройки инструкций в большом масштабе и непрерывной парадигмы обучения настройки инструкций для эффективного улучшения пространственно-временных способностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что с помощью Inst-IT наши модели достигают не только выдающихся результатов на Inst-IT Bench, но и демонстрируют значительные улучшения по различным базам понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляров, но и укрепляет общие способности к пониманию изображений и видео.

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

Долгосрочное извлечение ключевых фраз для длинных документов: Введение в LongKey

В эпоху информационного перегрузки ручная аннотация обширного и растущего корпуса документов и научных статей становится все менее практичной. Автоматизированное извлечение ключевых фраз решает эту задачу, идентифицируя представительные термины в текстах. Однако большинство существующих методов ориентированы на короткие документы (до 512 токенов), оставляя пробел в обработке длинных контекстов. В этой статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из длинных документов, которая использует языковую модель на основе кодировщика для захвата сложных аспектов текста. LongKey использует эмбеддер с максимальным пуллингом для улучшения представления кандидатов на ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невиданных наборах данных, LongKey постоянно превосходит существующие методы извлечения ключевых фраз на основе ненадзорного обучения и языковых моделей. Наши данные демонстрируют универсальность LongKey и его превосходную производительность, что является прогрессом в извлечении ключевых фраз для различных длин текстов и областей.

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

Прогресс в области крупномасштабных моделей языков зрения (LVLMs) значительно улучшил понимание мультимодальных данных, однако задачи по рассуждению на основе видео по-прежнему сталкиваются с трудностями из-за недостатка качественных, масштабных датасетов. Существующие наборы данных для вопросно-ответных систем на видео (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или от автоматических методов построения с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложных рассуждений. Чтобы решить эти проблемы, мы представляем VideoEspresso, новый датасет, который включает пары VideoQA, сохраняющие ключевые пространственные детали и временную последовательность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша конвейерная линия построения использует метод, ориентированный на семантику, для снижения избыточности, после чего генерируются пары ВО с помощью GPT-4o. Мы также развиваем аннотации видеосвязей мыслей (CoT) для обогащения процессов рассуждения, направляя GPT-4o на извлечение логических связей из пар ВО и содержимого видео. Для использования потенциала высококачественных пар VideoQA, мы предлагаем фреймворк сотрудничества гибридных LVLMs, включающий в себя селектор кадров и двухэтапную инструкцию, настроенную на рассуждения LVLM. Этот фреймворк адаптивно выбирает ключевые кадры и выполняет рассуждения по методу CoT с использованием мультимодальных доказательств. Оцененный на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLMs, наш метод превосходит существующие базовые модели по большинству задач, демонстрируя превосходные возможности рассуждений по видео. Наш код и датасет будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso.

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.