Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "dataset"

MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

Недавние методы видеомонтажа на основе ИИ позволили пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние методы видеомонтажа без предварительной тренировки в основном сосредоточены на глобальных изменениях или редактировании одного объекта, что может привести к нежелательным изменениям в других частях видео. Когда несколько объектов требуют локализованных изменений, существующие методы сталкиваются с такими проблемами, как неточное редактирование, утечка редактирования и нехватка подходящих датасетов и метрик для оценки. Чтобы преодолеть эти ограничения, мы предлагаем нулевую многокомпонентную видеомонтажную структуру, названную MIVE. MIVE — это универсальная маско-ориентированная структура, не предназначенная для конкретных объектов (например, людей). MIVE вводит два ключевых модуля: (i) Разделенное многокомпонентное выборка (DMS), чтобы предотвратить утечку редактирования, и (ii) Вероятностное перераспределение на основе объектов (IPR), чтобы обеспечить точную локализацию и достоверное редактирование. Кроме того, мы представляем наш новый датасет MIVE с разнообразными видеосценариями и вводим Оценку точности между экземплярами (CIA) для оценки утечки редактирования в задачах многокомпонентного видеомонтажа. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит современные передовые методы по верности редактирования, точности и предотвращению утечек, устанавливая новый стандарт для многокомпонентного видеомонтажа. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/.

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

ObjectMate: Новый подход к вставке объектов и генерации изображений

В этой статье представлен метод без настройки для вставки объектов и генерации на основе предмета. Задача заключается в том, чтобы создать объект, имея несколько ракурсов, в сцене, заданной либо изображением, либо текстом. Существующие методы испытывают трудности с полным выполнением сложных целей задачи: (i) бесшовное внедрение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что для достижения этих целей требуется крупномасштабное обучение, но сбор достаточных данных вручную просто слишком дорог. Ключевое наблюдение в этой статье заключается в том, что многие массово производимые объекты повторяются на нескольких изображениях больших разметок данных, в разных сценах, позах и условиях освещения. Мы используем это наблюдение для создания массового обучения, извлекая наборы разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение, чтобы сопоставить описания объекта и сцены с составным изображением. Мы сравниваем наш метод, ObjectMate, с современными методами вставки объектов и генерации на основе предмета, используя одну или несколько ссылок. Эмпирически, ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с несколькими ссылками, ObjectMate не требует медленной настройки во время тестирования.

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

VisionArena: Новая эра взаимодействия пользователей с моделями визуального языка

С растущим принятием и возможностями моделей зрения-языка (VLM) возникает необходимость в контрольных показателях, которые отражают аутентичные взаимодействия пользователей с VLM. В ответ мы создаем VisionArena, набор данных из 230K реальных разговоров между пользователями и VLM. Собранный на платформе Chatbot Arena - открытой платформе, где пользователи взаимодействуют с VLM и подают голосование за предпочтения - VisionArena охватывает 73K уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подсета: VisionArena-Chat, 200K одиночных и многоповоротных разговоров между пользователем и VLM; VisionArena-Battle, 30K разговоров, сравнивающих двух анонимных VLM с голосами предпочтений пользователей; и VisionArena-Bench, автоматическая оценка из 500 различных пользовательских запросов, которые эффективно приближаются к живым рейтингам моделей Chatbot Arena. Кроме того, мы подчеркиваем виды вопросов, задаваемых пользователями, влияние стиля ответов на предпочтения и области, где модели часто терпят неудачу. Мы обнаруживаем, что задачи с открытым окончанием, такие как создание подписей и юмор, сильно зависят от стиля, а текущие VLM испытывают трудности с пространственным мышлением и планированием задач. Наконец, мы показываем, что дообучение той же основной модели на VisionArena-Chat превосходит Llava-Instruct-158K, с увеличением на 17 пунктов в MMMU и на 46 пунктов в оценке WildVision. Набор данных доступен на https://huggingface.co/lmarena-ai.

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

Недавние достижения в генерации изображений из текста (T2I) продемонстрировали выдающиеся результаты в создании высококачественных изображений на основе текста. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации составных изображений с участием нескольких объектов и сложными взаимосвязями. Мы связываем эту проблему с ограничениями существующих наборов данных пар изображений и текста, которые не содержат точных аннотаций взаимосвязей между объектами и имеют только подсказки. Чтобы решить эту проблему, мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями графов сцен (SG), которые точно описывают атрибуты и взаимосвязи нескольких объектов, эффективно представляя семантическую структуру в сложных сценах. На основе LAION-SG мы обучаем новую базовую модель SDXL-SG, чтобы интегрировать информацию о структурных аннотациях в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительные улучшения производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели по генерации составных изображений, устанавливая новый стандарт в этой области.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

StreamChat: Интерактивное взаимодействие с потоковым видео

В данной статье представлен StreamChat — новый подход, который улучшает возможности взаимодействия Больших Мультимодальных Моделей (LMM) с потоковым видео-контентом. В сценариях взаимодействия с потоками существующие методы полагаются исключительно на визуальную информацию, доступную в момент, когда задаётся вопрос, что приводит к значительным задержкам, поскольку модель не осознает последующие изменения в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, гарантируя, что модель использует актуальный видео-контент на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых вводов, обеспечивая при этом эффективность вывода для потоковых взаимодействий. Более того, мы создаем новый плотный датасет инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты демонстрируют, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках для изображений и видео и демонстрирует превосходные возможности в сценариях потокового взаимодействия по сравнению с современными видео LMM.

MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержание внутри изображений на различные языки. Однако существующие наборы данных часто страдают от ограничений по масштабу, разнообразию и качеству, что препятствует разработке и оценке моделей IT. Чтобы решить эту проблему, мы представляем MIT-10M, крупномасштабный параллельный корпус многоязычного перевода изображений с более чем 10 миллионами пар изображений и текста, полученных из реальных данных, которые прошли тщательную очистку и проверку многоязычного перевода. Он содержит 840 тысяч изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 языков пар изображений и текста, что является значительным улучшением существующих наборов данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает высокой адаптивностью при оценке производительности моделей в решении сложных задач перевода изображений в реальном мире. Более того, производительность модели, дообученной на MIT-10M, утроилась по сравнению с базовой моделью, что дополнительно подтверждает ее превосходство.

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Мы представляем HumanEdit, высококачественный набор данных, вознагражденный людьми, специально разработанный для редактирования изображений под Anleitung, позволяющий точные и разнообразные манипуляции изображениями с помощью открытых текстовых инструкций. Предыдущие наборы данных редактирования крупномасштабного уровня часто включали минимальную обратную связь от человека, что приводило к проблемам с согласованием наборов данных с человеческими предпочтениями. HumanEdit преодолевает этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. С тщательно отобранными данными HumanEdit включает 5751 изображение и требует более 2500 часов человеческих усилий на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач редактирования изображений. Набор данных включает шесть различных типов инструкций редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывающих широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, а для подмножества данных мы обеспечиваем, чтобы инструкции были достаточно подробными для поддержки редактирования без масок. Более того, HumanEdit предлагает всеобъемлющее разнообразие и высокое разрешение 1024 на 1024 контента, полученного из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью содействия будущим исследованиям и установления оценочных стандартов в области редактирования изображений мы публикуем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

A GUVIS: Объединённые агенты с чистым зрением для автономного взаимодействия с графическими интерфейсами

Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированную чисто визуальную платформу для автономных агентов GUI, которая работает на различных платформах. Наш подход использует наблюдения на основе изображений и связывает инструкции на естественном языке с визуальными элементами, а также применяет согласованное пространство действий для обеспечения обобщения между платформами. Чтобы преодолеть ограничения предыдущих работ, мы интегрируем явное планирование и рассуждения в модель, что увеличивает ее способность автономно ориентироваться и взаимодействовать со сложными цифровыми средами. Мы создаем масштабный набор данных о траекториях агентов GUI, включая многомодальное рассуждение и связывание, и применяем двухэтапный тренировочный конвейер, который сначала фокусируется на общем связывании GUI, а затем на планировании и рассуждении. Через всесторонние эксперименты мы демонстрируем, что Aguvis превосходит предыдущие передовые методы как в оффлайновых, так и в реальных онлайн-сценариях, включая, насколько нам известно, первого полностью автономного чисто визуального агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы открыли исходные коды всех наборов данных, моделей и рецептов обучения, чтобы содействовать будущим исследованиям по адресу https://aguvis-project.github.io/.

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

U-MATH: Новый стандарт для оценки математических навыков в LLM

Текущая оценка математических навыков в LLM ограничена, поскольку существующие эталоны либо относительно малы, сосредоточены преимущественно на задачах начальной и средней школы, либо не имеют разнообразия по темам. Более того, включение визуальных элементов в задачи остается в значительной степени недостаточно исследованным. Чтобы устранить эти пробелы, мы представляем U-MATH, новый эталон из 1100 неопубликованных открытых университетских задач, извлеченных из учебных материалов. Он сбалансирован по шести основным предметам, при этом 20% составляют мультимодальные задачи. Учитывая открытый характер задач U-MATH, мы используем LLM для оценки правильности сгенерированных решений. С этой целью мы выпускаем mu-MATH, набор данных для оценки возможностей LLM в оценке решений. Оценка LLM общего назначения, специализированных по математике и мультимодальных подчеркивает сложности, представляемые U-MATH. Наши результаты показывают, что LLM достигают максимальной точности всего 63% по текстовым задачам и даже более низких 45% по визуальным задачам. Оценка решений представляет собой сложную задачу для LLM, при этом лучший LLM-судья имеет F1-оценку 80% по mu-MATH.

I,NST-IT: Усовершенствование многомодального понимания экземпляров через явную настройку визуальных подсказок

Большие мультимодальные модели (LMM) достигли значительных прорывов благодаря развитию настройки инструкций. Однако, хотя существующие модели могут понимать изображения и видео на целостном уровне, им все еще трудно осваивать понимание на уровне экземпляров, которое требует более тонкого восприятия и согласования. Понимание на уровне экземпляров имеет решающее значение, так как оно сосредоточено на конкретных элементах, которые нас больше всего интересуют. Увлекательно, что существующие работы показывают, что передовые LMM демонстрируют сильные способности понимания экземпляров, когда им предоставляются явные визуальные подсказки. Вдохновленные этим, мы представляем автоматизированный процесс аннотирования, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляров из изображений и видео с помощью явного визуального побуждения для руководства по экземплярам. Основываясь на этом процессе, мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров через настройку инструкций с явными визуальными подсказками. Inst-IT состоит из эталона для диагностики мультимодального понимания на уровне экземпляров, набора данных для настройки инструкций в большом масштабе и непрерывной парадигмы обучения настройки инструкций для эффективного улучшения пространственно-временных способностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что с помощью Inst-IT наши модели достигают не только выдающихся результатов на Inst-IT Bench, но и демонстрируют значительные улучшения по различным базам понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляров, но и укрепляет общие способности к пониманию изображений и видео.

MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.

OmniCreator: Унифицированное поколение и редактирование видео с самообучением

Мы представляем OmniCreator, новую Framework, которая может осуществлять генерируемое текстом унифицированное (изображение + видео) создание, а также редактирование всего в одном месте. OmniCreator приобретает генеративные и универсальные редакционные возможности в самонаправленном режиме, принимая оригинальные текстово-видео пары в качестве условий, одновременно используя то же самое видео в качестве цели денойзинга для изучения семантического соответствия между видео и текстом. Во время вывода, когда представляется текстовый запрос и видео, OmniCreator способен генерировать целевой контент, который верен обоим, достигая универсального эффекта редактирования, который не ограничен в отличие от существующих редакционных работ, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролей (например, структурных условий, функций внимания или инверсии DDIM). С другой стороны, когда представлен только текстовый запрос, OmniCreator становится генеративным, создавая высококачественное видео в результате изученного семантического соответствия. Важно отметить, что те же возможности распространяются на изображения как есть, что делает OmniCreator поистине унифицированной Framework. Более того, из-за отсутствия существующих бенчмарков для генеративного редактирования видео, мы представляем набор данных OmniBench-99, предназначенный для комплексной оценки производительности моделей генеративного редактирования видео. Обширные эксперименты демонстрируют, что OmniCreator демонстрирует значительное превосходство над всеми другими моделями.

SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

Человеческие существа - социальные животные. Как наделить 3D автономных персонажей подобным социальным интеллектом, способным воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной задачей. В этой статье мы представляем SOLAMI, первую модельную структуру от начала до конца для социального видения-языка-действия (VLA) для погружающего взаимодействия с 3D автономными персонажами. В частности, SOLAMI строит 3D автономных персонажей с трех аспектов: (1) Архитектура социального VLA: Мы предлагаем единый социальный VLA фреймворк для генерации мультимодальных ответов (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социальных взаимодействий, сгенерированный автоматическим конвейером, использующим только существующие наборы данных движения для решения проблемы нехватки данных. (3) Погружающий VR интерфейс: Мы разрабатываем VR интерфейс, который позволяет пользователям погружающе взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и исследования пользователей показывают, что наша структура приводит к более точным и естественным реакциям персонажей (как в речи, так и в движении), которые соответствуют ожиданиям пользователей с более низкой задержкой.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Создание аналогий является основополагающим для когнитивной деятельности. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки языковых и когнитивных способностей. Например, завершение аналогий типа "Кислород относится к Газу, как <пусто> относится к <пусто>" требует выявления семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В этой работе мы представляем набор данных из 15 тысяч многовариантных вопросов (MCQA) для завершения пропорциональных аналогий и оцениваем производительность современных крупных языковых моделей (LLM) в различных настройках с усилением знаний. В частности, мы дополняем подсказки тремя типами знаний: образцом, структурированным и целевым. Наши результаты показывают, что, несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM, причем лучшая модель достигает точности 55%. Примечательно, что мы находим, что предоставление целевого знания может лучше помочь моделям в завершении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

PhysGame: Открытие нарушений физической здравомыслия в игровом видео

Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) продемонстрировали появление различных возможностей для мышления и интерпретации динамического визуального контента. Среди них игровые видео выделяются как уникальный источник данных, часто содержащий сбои, которые противоречат физическим здравым рассуждениям. Эта характеристика делает их эффективным эталоном для оценки недостаточно исследованной способности к пониманию физического здравого смысла в видео LLMs. В этой статье мы предлагаем PhysGame как новаторский эталон для оценки нарушений физического здравого смысла в игровых видео. PhysGame включает в себя 880 видео, связанных со сбоями в четырех основных областях (т.е. механика, кинематика, оптика и свойства материалов) и охватывающих 12 различных аспектов физического здравого смысла. Проведя обширную оценку различных современных видео LLMs, мы обнаружили, что производительность текущих открытых видео LLMs значительно отстает от производительности проприетарных аналогов. Чтобы устранить этот разрыв, мы создали набор данных для настройки инструкций PhysInstruct с 140 057 парами вопросов и ответов для содействия обучению физического здравого смысла. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются в зависимости от вводящих в заблуждение заголовков (т.е. взлом метаинформации), меньшего числа кадров (т.е. временной взей) и более низкого пространственного разрешения (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, усиленный физическими знаниями. Обширные эксперименты по как физически ориентированному эталону PhysGame, так и общим эталонам видео понимания демонстрируют передовую производительность PhysVLM.

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.

AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов

Недавние достижения в производительности больших языковых моделей (LLM) по медицинским тестам с выбором из нескольких вариантов (MCQ) вызвали интерес со стороны поставщиков медицинских услуг и пациентов по всему миру. Особенно в странах с низкими и средними доходами (LMIC), испытывающих острый дефицит врачей и нехватку специалистов, LLM предлагают потенциально масштабируемый способ улучшения доступа к медицинским услугам и снижения затрат. Однако их эффективность в Глобальном Юге, особенно на африканском континенте, еще предстоит установить. В этой работе мы представляем AfriMed-QA, первую крупномасштабную панаравиканскую английскую базу данных вопросов и ответов (QA) в области медицины, состоящую из 15 000 вопросов (открытых и закрытых), собранных из более чем 60 медицинских школ в 16 странах, охватывающих 32 медицинские специальности. Мы дополнительно оцениваем 30 LLM по нескольким критериям, включая правильность и демографическую предвзятость. Наши результаты показывают значительное различие в производительности между специальностями и регионами; производительность MCQ явно отстает от USMLE (MedQA). Мы обнаруживаем, что биомедицинские LLM уступают общим моделям, а меньшие модели LLM, ориентированные на крайние устройства, с трудом достигают проходного балла. Интересно, что человеческие оценки показывают устойчивое предпочтение потребителей к ответам и объяснениям LLM по сравнению с ответами клиницистов.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

Гибкая методология разработки защитных механизмов для крупных языковых моделей: применение к обнаружению офф-топик запросов

Крупные языковые модели склонны к нецелевому использованию, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Текущие ограничительные механизмы, которые часто опираются на курированные примеры или специализированные классификаторы, страдают от высокого уровня ложноположительных срабатываний, ограниченной адаптации и нецелесообразности требования реальных данных, которые недоступны на стадии предварительного производства. В данной статье мы представляем гибкую методологию разработки ограничительных механизмов без использования данных, которая решает эти проблемы. Определяя проблемное пространство качественно и передавая эту информацию в языковую модель для генерации разнообразных запросов, мы создаем синтетический набор данных для тестирования и обучения ограничительных механизмов, которые превосходят эвристические подходы. Кроме того, формулируя задачу как классификацию релевантности пользовательского запроса относительно системного запроса, наши ограничительные механизмы эффективно обобщают на другие категории нецелевого использования, включая взлом системы и вредоносные запросы. Наконец, мы вносим вклад в эту область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничительных механизмов, предоставляя ценные ресурсы для разработки ограничительных механизмов в предварительно-производственных средах и поддерживая дальнейшие исследования и разработки в области безопасности LLM.

VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

Прогресс в области крупномасштабных моделей языков зрения (LVLMs) значительно улучшил понимание мультимодальных данных, однако задачи по рассуждению на основе видео по-прежнему сталкиваются с трудностями из-за недостатка качественных, масштабных датасетов. Существующие наборы данных для вопросно-ответных систем на видео (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или от автоматических методов построения с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложных рассуждений. Чтобы решить эти проблемы, мы представляем VideoEspresso, новый датасет, который включает пары VideoQA, сохраняющие ключевые пространственные детали и временную последовательность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша конвейерная линия построения использует метод, ориентированный на семантику, для снижения избыточности, после чего генерируются пары ВО с помощью GPT-4o. Мы также развиваем аннотации видеосвязей мыслей (CoT) для обогащения процессов рассуждения, направляя GPT-4o на извлечение логических связей из пар ВО и содержимого видео. Для использования потенциала высококачественных пар VideoQA, мы предлагаем фреймворк сотрудничества гибридных LVLMs, включающий в себя селектор кадров и двухэтапную инструкцию, настроенную на рассуждения LVLM. Этот фреймворк адаптивно выбирает ключевые кадры и выполняет рассуждения по методу CoT с использованием мультимодальных доказательств. Оцененный на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLMs, наш метод превосходит существующие базовые модели по большинству задач, демонстрируя превосходные возможности рассуждений по видео. Наш код и датасет будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso.

Терпение - ключ к рассуждениям больших языковых моделей

Недавние достижения в области крупных языковых моделей, особенно с использованием метода цепочки мыслей (CoT), продемонстрировали значительное улучшение в решении сложных задач. Однако существующие модели либо склонны жертвовать детализированным рассуждением ради краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для освоения сложных способностей к рассуждению, что ограничивает их потенциал в решении комплексных задач. Чтобы преодолеть этот разрыв, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, который поощряет модели к более терпеливому стилю рассуждений без необходимости введения новых знаний или навыков. Для реализации подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений в качестве положительных примеров и простые ответы — как отрицательные примеры, тем самым обучая модель отдавать предпочтение тщательности в своих ответах. Наши результаты показывают увеличение производительности до 6.7% на GSM8k при обучении только на легковесном наборе данных.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Извлечение Последовательности Действий Пользователя из Записей Экрана с Помощью ВЛМ

Видеозаписи активности пользователей, особенно записи с рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в области моделей видео-языкового взаимодействия (VLMs) и их возрастающее использование в анализе видео, извлечение действий пользователя из записей с рабочего стола остается малоизученной областью. В данной статье мы устраняем этот пробел, предлагая два новых метода на основе VLMs для извлечения действий пользователя: прямой подход на основе кадров (DF), при котором образцы кадров напрямую вводятся в VLMs, и дифференциальный подход на основе кадров (DiffF), который включает в себя явные различия кадров, выявляемые с помощью методов компьютерного зрения. Мы оцениваем эти методы, используя базовый самосоставленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что подход DF достигает точности от 70% до 80% в определении действий пользователя, при этом извлеченные последовательности действий могут быть воспроизведены через автоматизацию роботизированных процессов. Мы обнаружили, что хотя VLMs показывают потенциал, включение явных изменений пользовательского интерфейса может ухудшить производительность, что делает подход DF более надежным. Эта работа представляет собой первое применение VLMs для извлечения последовательностей действий пользователя из записей рабочего стола, внося вклад в новые методы, бенчмарки и инсайты для будущих исследований.

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

GitChameleon: Разоблачение возможностей генерации версионного кода LLM

Быстрое развитие библиотек программного обеспечения представляет собой значительный вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки для автодополнения кода часто упускают из виду этот динамический аспект, а те, которые его учитывают, опираются на статические задачи предсказания кода без оценки на основе выполнения, предоставляя ограниченный взгляд на практическую применимость модели. Чтобы заполнить этот пробел, мы представляем **GitChameleon**, новый, вручную отобранный набор данных, состоящий из 116 задач автодополнения кода на Python, каждая из которых обусловлена конкретными версиями библиотек и сопровождается исполняемыми юнит-тестами. **GitChameleon** предназначен для тщательной оценки способности современных больших языковых моделей (LLM) генерировать код, специфичный для версии, который не только синтаксически правильный, но и функционально точен при выполнении. Наши комплексные оценки показывают, что передовые LLM сталкиваются с трудностями в решении этой задачи; например, GPT-4o достигает pass@10 всего 39.9% (43.7%, когда предоставляется обратная связь об ошибках), что подчеркивает сложность проблемы и ограничения текущих моделей. Предоставляя бенчмарк на основе выполнения, который подчеркивает динамическую природу библиотек кода, **GitChameleon** служит важным инструментом для продвижения разработки более адаптируемых и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, обусловленной версиями, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.

Введение в CAD-MLLM: Объединение Генерации CAD с Мультимодальными Условиями

Эта статья направлена на разработку унифицированной системы генерации компьютерного проектирования (САПР), которая может легко создавать модели САПР на основе вводимых пользователем данных в виде текстового описания, изображений, облаков точек или их комбинации. В достижении этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические модели САПР, учитывая многомодальные входные данные. Конкретно, в рамках фреймворка CAD-MLLM, мы используем последовательности команд моделей САПР, а затем применяем продвинутые большие языковые модели (LLMs) для выравнивания пространства признаков между этими разнообразными многомодальными данными и векторизованными представлениями моделей САПР. Для облегчения обучения модели мы разработали комплексный конвейер конструирования и аннотации данных, который оснащает каждую модель САПР соответствующими многомодальными данными. Наш полученный набор данных, названный Omni-CAD, является первым многомодальным набором данных САПР, содержащим текстовое описание, изображения с различных ракурсов, точки и последовательность команд для каждой модели САПР. Он содержит примерно 450 тысяч экземпляров и их последовательностей построения САПР. Для тщательной оценки качества сгенерированных моделей САПР мы идем дальше текущих метрик оценки, сфокусированных на качестве восстановления, вводя дополнительные метрики, которые оценивают качество топологии и степень охвата поверхности. Результаты обширных экспериментов показывают, что CAD-MLLM значительно превосходит существующие методы условной генерации и остается высоко устойчивым к шумам и отсутствующим точкам. Страница проекта и дополнительные визуализации доступны по адресу: https://cad-mllm.github.io/

Улучшение выявления технических долгов в исходном коде Java с помощью обогащенного набора данных

Технический долг (TD) — это термин, используемый для описания дополнительной работы и затрат, которые возникают, когда разработчики выбирают быстрое и легкое решение проблемы, вместо более эффективного и продуманного, но требующего времени подхода. Самопризнанные технические долги (SATD) представляют собой особый вид технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самопризнанные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих методов сосредотачиваются на захвате ключевых токенов, связанных с различными категориями TD, пренебрегая богатой информацией, встроенной в сам исходный код. Недавние исследования были направлены на обнаружение SATD путем анализа комментариев, встроенных в исходный код, и было проведено мало работ, касающихся технических долгов, содержащихся в исходном коде. Чтобы заполнить этот пробел, в данном исследовании, через анализ комментариев и их связанного исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы создали первый набор данных технических долгов, идентифицированных через комментарии к коду, вместе с соответствующим исходным кодом. В ходе эмпирической оценки мы выяснили, что комментарии из полученного набора данных помогают улучшить производительность прогнозирования моделей обнаружения SATD. Более важно, что включение классифицированного исходного кода значительно улучшает точность прогнозирования различных типов технических долгов. В этом смысле наша работа двойственна: (i) Мы верим, что наш набор данных будет катализатором для будущих работ в данной области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технических долгов; (ii) Предложенные классификаторы могут служить базовыми моделями для других исследований по обнаружению TD с помощью созданного набора данных.

Усиление Конверсационных Агентов с помощью LLM, Насыщенных Навыками Разума

Для усиления социальных связей с собеседниками люди естественным образом приобретают способность адекватно реагировать в заданной ситуации, учитывая, какой навык общения наиболее подходит для ответа — процесс, который мы называем "навык ума". Для агентов беседы, основанных на больших языковых моделях (LLM), планирование подходящих навыков общения, как это делают люди, представляет собой сложную задачу из-за сложности социального диалога, особенно в интерактивных сценариях. Чтобы решить эту проблему, мы предлагаем набор данных бесед с аннотациями навыков ума, названный "Многоаспектный навык ума", который включает в себя многоходовые и многоаспектные навыки общения в различных интерактивных сценариях (например, долгосрочные, консультационные, ориентированные на задачу), основанные на разнообразных социальных контекстах (например, демография, персона, правила поведения). Этот набор данных содержит примерно 100 тысяч бесед. Используя этот набор данных, мы представляем новую семью LLM с интегрированными навыками ума, названную "Танос", с размерами модели в 1 миллиард, 3 миллиарда и 8 миллиардов параметров. Эти модели в ходе обширных экспериментов успешно демонстрируют процесс навыка ума и показывают высокую обобщаемость при выводе многоаспектных навыков в различных областях. Более того, мы показали, что Танос значительно улучшает качество ответов, генерируемых агентами бесед на основе LLM, и способствует про-социальному поведению в оценках человеком.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

Генерирование 3D и 4D сцен с Gen-X-D: От теории к практике

Недавние достижения в области генерации двумерных визуальных изображений были весьма успешными. Однако, создание 3D и 4D объектов остается сложной задачей в реальных приложениях из-за отсутствия масштабных 4D данных и эффективного дизайна моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D объектов, используя движения камеры и объектов, которые часто наблюдаются в повседневной жизни. Из-за недостатка реальных 4D данных в сообществе, мы сначала предлагаем пайплайн курирования данных для получения позиций камеры и интенсивности движения объектов из видео. На основе этого пайплайна мы представляем крупномасштабный набор данных реальных 4D сцен: CamVid-30K. Используя все 3D и 4D данные, мы разрабатываем нашу платформу, GenXD, которая позволяет создавать любую 3D или 4D сцену. Мы вводим мультивью-темпоральные модули, которые разделяют движения камеры и объектов, чтобы беспрепятственно учиться на обоих типах данных. Кроме того, GenXD использует маскированные латентные условия для поддержки различных условий визуализации. GenXD способен генерировать видео, которые следуют траектории камеры, а также согласованные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами генерации 3D и 4D объектов.

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM

Крупные языковые модели (LLM) преуспели в ответах на вопросы с несколькими этапами (M-QA) благодаря своим продвинутым способностям к рассуждению. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных QA, которые предоставляли бы детализированные структуры рассуждений. Чтобы восполнить этот пробел, мы представляем Набор данных для вопросно-ответной системы с графовыми структурами рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений, создавая графы рассуждений, где узлы представляют текстовые контексты, а связи обозначают логические потоки. Эти графы рассуждений различных структур позволяют детально оценить способности LLM к рассуждению на различных структурах рассуждений. Наш эмпирический анализ показывает, что LLM по-разному справляются с вопросами, имеющими различные структуры рассуждений. Это открытие способствует изучению текстовых структур в сравнении с семантикой.

Оценка потенциала ИИ в научных исследованиях: Бенчмарк AAAR-1.0

Многочисленные исследования оценивали эффективность систем ИИ, особенно крупных языковых моделей (LLM), в выполнении повседневных задач, таких как написание электронных писем, ответы на вопросы и создание креативного контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями при использовании LLM для своей работы, например, для мозгового штурма исследовательских идей, проектирования экспериментов и написания или рецензирования научных статей. В данном исследовании мы представляем AAAR-1.0, набор данных для оценки, разработанный для оценки производительности LLM в трех основных, требующих высокой квалификации, исследовательских задачах: (i) EquationInference — оценка корректности уравнений на основе контекстной информации в представленных статьях; (ii) ExperimentDesign — проектирование экспериментов для проверки исследовательских идей и решений; (iii) PaperWeakness — выявление слабых мест в представленных статьях; и (iv) REVIEWCRITIQUE — определение, какие сегменты в рецензиях людей недостаточны или нет. AAAR-1.0 отличается от предыдущих эталонных тестов двумя ключевыми способами: во-первых, он ориентирован на исследования, с задачами, требующими глубоких знаний в области; во-вторых, он ориентирован на исследователей, отражая основные виды деятельности, которыми исследователи занимаются ежедневно. Оценка как открытых, так и проприетарных LLM выявляет их потенциал, а также ограничения в проведении сложных исследовательских задач. Мы будем продолжать итерацию AAAR-1.0 до новых версий.

Подход на основе сети указателей для совместной извлечения и обнаружения многометочных многоклассовых намерений

В задачно-ориентированных диалоговых системах распознавание намерений является ключевым для интерпретации запросов пользователя и предоставления соответствующих ответов. Существующие исследования в основном рассматривают простые запросы с единственным намерением, не предлагая эффективных систем для обработки сложных запросов с несколькими намерениями и извлечения различных сегментов намерений. Кроме того, отсутствуют многоязычные, многонамеренные наборы данных. Данное исследование охватывает три критических аспекта: извлечение нескольких сегментов намерений из запросов, обнаружение нескольких намерений и разработку многоязычного набора данных с множественными метками намерений. Мы представляем новый набор данных для многомерной многоклассовой классификации намерений (MLMCID-dataset), созданный на основе существующих эталонных наборов данных. Также мы предлагаем архитектуру на основе указательной сети (MLMCID) для извлечения сегментов намерений и обнаружения множества намерений с использованием грубых и детализированных меток в форме секстетов. Комплексный анализ показывает превосходство нашей системы, основанной на указательной сети, над базовыми подходами в отношении точности и F1-оценки на различных наборах данных.

Улучшение способности следовать сложным инструкциям у больших языковых моделей через обратный перевод ограничений

Крупные языковые модели (LLMs) испытывают трудности с выполнением инструкций, содержащих сложные ограничения по формату, длине и т.д. Следуя традиционной практике настройки инструкций, предыдущие исследования проводили постобучение на парах сложных инструкций и ответов, сгенерированных путем подачи сложных инструкций в продвинутые LLM. Однако даже продвинутые LLM плохо справляются с выполнением сложных инструкций, что ограничивает качество генерируемых данных. В данной работе мы обнаруживаем, что существующие наборы данных уже содержат неявные сложные ограничения и предлагаем новый метод генерации данных — обратный перевод ограничений. Конкретно, мы берем высококачественные пары инструкций-ответов из существующих наборов данных и используем только продвинутые LLM для добавления сложных ограничений, которые уже выполняются ответами, что естественным образом снижает затраты и шум данных. В экспериментах мы использовали модель Llama3-70B-Instruct для обратного перевода ограничений и создали высококачественный набор данных сложных инструкций-ответов, названный CRAB. Мы показываем, что постобучение на CRAB улучшает способность различных базовых LLM следовать сложным инструкциям, что было оценено на обширных бенчмарках следования инструкциям. Мы также обнаружили, что обратный перевод ограничений служит полезной вспомогательной целью обучения в процессе постобучения. Наш код, данные и модели будут опубликованы для содействия будущим исследованиям.

Изучение видео представлений без использования натуральных видео

В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.