Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "benchmark"

VisDoM: Мультимодальное QA с визуально насыщенными элементами

Понимание информации из коллекции нескольких документов, особенно тех, которые содержат визуально насыщенные элементы, важно для ответа на вопросы, основанные на документах. Эта статья представляет VisDoMBench, первый всесторонний бенчмарк, предназначенный для оценки систем QA в условиях многодокументной среды с богатым мультимодальным контентом, включая таблицы, диаграммы и слайды презентаций. Мы предлагаем VisDoMRAG, новый многомодальный подход к увеличению извлечения (RAG), который одновременно использует визуальное и текстовое RAG, комбинируя надежные возможности визуального извлечения с сложным языковым рассуждением. VisDoMRAG использует многоступенчатый процесс рассуждения, охватывающий отбор доказательств и последовательное рассуждение для параллельных текстовых и визуальных RAG-потоков. Ключевым новшеством VisDoMRAG является его механизм слияния модальностей с ограничениями по согласованности, который согласует процессы рассуждения между модальностями в моментInference для получения связного окончательного ответа. Это приводит к повышенной точности в сценариях, где критическая информация распределена между модальностями, и улучшенной проверяемости ответов за счет неявной атрибуции контекста. Через обширные эксперименты с использованием открытых и проприетарных больших языковых моделей мы оценили современные методы документального QA на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит однородные и длинные контекстные базовые LLM на 12-20% в конце концов многомодального документального QA.

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

Возможности LLM в стабильном рассуждении: анализ G-Pass@k и LiveMathBench

Быстрый прогресс больших языковых моделей (LLM) продемонстрировал заметные достижения в сложных задачах рассуждения. Однако существует значительное несоответствие между эталонными показателями и реальными приложениями. Мы определяем этот разрыв как в первую очередь происходящий от текущих протоколов и метрик оценки, которые неадекватно отражают весь спектр возможностей LLM, особенно в сложных задачах рассуждения, где как точность, так и последовательность имеют решающее значение. Эта работа делает два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая предоставляет непрерывную оценку производительности модели по нескольким попыткам выборки, количественно оценивая как потенциал максимальной производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамическую эталонную базу, состоящую из сложных, современных математических задач, разработанных с целью минимизировать риски утечек данных во время оценки. Через обширные эксперименты с использованием G-Pass@k на современных LLM с LiveMathBench мы предоставляем всесторонние впечатления как о их максимальных возможностях, так и о операционной последовательности. Наши результаты показывают значительные возможности для улучшения «реалистичных» способностей рассуждения LLM, подчеркивая необходимость более надежных методов оценки. Эталон и детализированные результаты доступны по адресу: https://github.com/open-compass/GPassK.

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.

ragllmbenchmark

ColorFlow: Революция в цветизации изображений последовательностей

Автоматическая цветизация черно-белых последовательностей изображений с сохранением идентичности персонажей и объектов (ID) является сложной задачей с значительным спросом на рынке, например, для цветизации мультфильмов или комиксов. Несмотря на достижения в визуальной цветизации с использованием крупных генеративных моделей, таких как диффузионные модели, продолжают существовать проблемы с управляемостью и согласованностью идентичности, что делает существующие решения непригодными для промышленного применения. Чтобы решить эту задачу, мы предлагаем ColorFlow — трехэтапную диффузионную основу, адаптированную для цветизации последовательностей изображений в промышленном применении. В отличие от существующих методов, которые требуют дообучения на уровне ID или явной извлечения встраиваний ID, мы предлагаем новую надежную и обобщаемую цветизационную трубопроводную систему с использованием дополненной выборки для цветизации изображений с соответствующими цветовыми ссылками. Наша трубопроводная система также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности, а другая для цветизации, используя сильные стороны диффузионных моделей. Мы используем механизм самовнимания в диффузионных моделях для мощного обучения в контексте и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, комплексный эталон для цветизации на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательной цветизации изображений и потенциально принося пользу художественной индустрии. Мы публикуем наши коды и модели на нашей странице проекта: https://zhuang2002.github.io/ColorFlow/.

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

KV Cache-Centric Analysis of Long-Context Methods

Долгосрочные LLM (языковые модели) способствовали множеству downstream-приложений, но также вызвали существенные проблемы, связанные с вычислительной и памятью. Чтобы решить эти проблемы, были разработаны оптимизации для долгосрочного вывода, сосредоточенные вокруг кэша KV. Однако существующие тесты часто оценивают в режиме одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недостаток особенно критичен, поскольку повторное использование кэша KV стало широко распространено в рамках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Чтобы устранить этот пробел, мы представляем SCBench (SharedContextBench), комплексный тест для оценки методов долгосрочного контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, покрывая четыре категории возможностей долгосрочного контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ решений долгосрочного контекста с акцентом на кэш KV по восьми категориям, включая Gated Linear RNNs, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, сброс кэша KV, квантование, извлечение, загрузку и сжатие подсказок. Оценка проводится на 8 долгосрочных LLM. Наши результаты показывают, что методы с памятью менее O(n) страдают в сценариях многопроходного общения, в то время как разреженное кодирование с памятью O(n) и вычислениями предварительной заливки менее O(n^2) демонстрирует надежную работу. Динамическая разреженность создает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоев в гибридных архитектурах снижает использование памяти с высокой производительностью. Кроме того, мы выявляем проблемы с изменением распределения внимания в сценариях долгосрочной генерации. https://aka.ms/SCBench.

R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В данной статье представлен RuleArena, новый и сложный ориентир, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам из реальной жизни в рассуждениях. Охватывая три практические области — сборы за багаж авиакомпаний, сделки НБА и налоговое законодательство — RuleArena оценивает мастерство LLM в обработке сложных инструкций на естественном языке, требующих понимания длинного контекста, логического рассуждения и точных математических расчетов. Две ключевые особенности отличают RuleArena от традиционных ориентиров на основе правил: (1) он выходит за пределы стандартных представлений логики первого порядка и (2) он основан на подлинных практических сценариях, предоставляя информацию о пригодности и надежности LLM для применения в реальных условиях. Наши результаты выявляют несколько заметных ограничений в LLM: (1) они испытывают трудности с идентификацией и применением соответствующих правил, часто путаясь в схожих, но различных регламентах, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом, они демонстрируют плохие результаты в тестировании. Эти результаты подчеркивают значительные проблемы в развитии возможностей рассуждения LLM на основе правил в реальных приложениях.

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

VisionArena: Новая эра взаимодействия пользователей с моделями визуального языка

С растущим принятием и возможностями моделей зрения-языка (VLM) возникает необходимость в контрольных показателях, которые отражают аутентичные взаимодействия пользователей с VLM. В ответ мы создаем VisionArena, набор данных из 230K реальных разговоров между пользователями и VLM. Собранный на платформе Chatbot Arena - открытой платформе, где пользователи взаимодействуют с VLM и подают голосование за предпочтения - VisionArena охватывает 73K уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подсета: VisionArena-Chat, 200K одиночных и многоповоротных разговоров между пользователем и VLM; VisionArena-Battle, 30K разговоров, сравнивающих двух анонимных VLM с голосами предпочтений пользователей; и VisionArena-Bench, автоматическая оценка из 500 различных пользовательских запросов, которые эффективно приближаются к живым рейтингам моделей Chatbot Arena. Кроме того, мы подчеркиваем виды вопросов, задаваемых пользователями, влияние стиля ответов на предпочтения и области, где модели часто терпят неудачу. Мы обнаруживаем, что задачи с открытым окончанием, такие как создание подписей и юмор, сильно зависят от стиля, а текущие VLM испытывают трудности с пространственным мышлением и планированием задач. Наконец, мы показываем, что дообучение той же основной модели на VisionArena-Chat превосходит Llava-Instruct-158K, с увеличением на 17 пунктов в MMMU и на 46 пунктов в оценке WildVision. Набор данных доступен на https://huggingface.co/lmarena-ai.

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Мультимодальные большие языковые модели (МЛЛМ) достиглиrapid прогресса за последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (НУВП) — особенно со способностью точно описывать геометрические детали изображения. Эта способность жизненно важна для приложений в таких областях, как робототехника, анализ медицинских изображений и производство. В этой статье мы сначала представляем Геовосприятие, эталонный показатель, предназначенный для оценки способности МЛЛМ точно транскрибировать 2D геометрическую информацию из изображения. Используя этот эталон, мы демонстрируем ограничения ведущих МЛЛМ, а затем проводим всестороннее эмпирическое исследование, чтобы изучить стратегии улучшения их производительности по геометрическим задачам. Наши выводы подчеркивают преимущества некоторых архитектур моделей, техник обучения и стратегий данных, включая использование синтетических данных высокого качества и многоуровневое обучение с учебным планом данных. Особенно мы обнаруживаем, что учебный план данных позволяет моделям изучать сложные задачи понимания геометрии, которые они не могут усвоить с нуля. Основываясь на этих выводах, мы разрабатываем Евклид, семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Евклид обучался исключительно на синтетических мультимодальных данных, он демонстрирует сильные способности к обобщению на новых геометрических формах. Например, Евклид превосходит лучшую закрытую модель Gemini-1.5-Pro на 58.56% по определенным задачам эталона Геовосприятия и на 10.65% в среднем по всем задачам.

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

3DSRBench: Комплексный Бенчмарк Пространственного Рассуждения в 3D

3D пространственное мышление – это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в 3D-пространстве. Это позволяет моделям развивать всестороннее понимание 3D-сцены, что делает их применимыми для более широкого диапазона областей, таких как автономная навигация, робототехника и дополненная/виртуальная реальность. Несмотря на то, что крупные многомодальные модели (LMMs) добились значительного прогресса в широком диапазоне задач по пониманию изображений и видео, их способности выполнять 3D пространственное мышление на различных природных изображениях изучены меньше. В этой работе мы представляем первую всестороннюю оценку 3D пространственного мышления – 3DSRBench, с 2,772 вручную аннотированными парами визуальных вопросов-ответов по 12 типам вопросов. Мы проводим тщательную и надежную оценку возможностей 3D пространственного мышления, балансируя распределение данных и применяя новую стратегию FlipEval. Чтобы дополнительно изучить надежность 3D пространственного мышления относительно 3D-углов обзора камеры, наш 3DSRBench включает два поднабора с вопросами по 3D пространственному мышлению на парных изображениях с общими и необычными углами обзора. Мы исследуем широкий спектр открытых и собственных LMM, выявляя их ограничения в различных аспектах 3D осведомленности, таких как высота, ориентация, местоположение и многократное объектное мышление, а также их ухудшенные показатели на изображениях с необычными углами обзора камеры. Наш 3DSRBench предоставляет ценные данные и insights для будущего развития LMM с сильными возможностями 3D мышления. Наша проектная страница и набор данных доступны по адресу https://3dsrbench.github.io.

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

Глобальная визуальная геолокация предсказывает, где изображение было сделано на Земле. Поскольку изображения различаются по точности локализации, эта задача изначально связана с значительной степенью неоднозначности. Тем не менее, существующие подходы являются детерминистическими и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации, основанный на диффузии и совпадении Римановых потоков, где процесс денойзинга осуществляется непосредственно на поверхности Земли. Наша модель достигает передовых показателей на трех тестах визуальной геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы вводим задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным локациям, вместо одной точки. Мы представляем новые метрики и базовые показатели для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Код и модели будут доступны.

Реформулирование взаимодействия в диалоге с использованием тонкой элементной модели

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека и машины, что привело к накоплению огромного количества журналов бесед и увеличению спроса на генерацию диалога. Цикл жизни разговора охватывает Прелюдию, Интерлокацию и Эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогом, отсутствуют эталоны, охватывающие всеобъемлющие элементы диалога, что затрудняет точное моделирование и систематическую оценку. Чтобы устранить этот разрыв, мы представляем инновационную исследовательскую задачу Моделирования Элементов Диалога, включая Осведомленность об Элементах и Взаимодействие Агентов Диалога, и предлагаем новый эталон DEMO, предназначенный для комплексного моделирования и оценки диалога. Вдохновленные обучением подражанию, мы также создаем агента, обладающего опытной способностью моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще демонстрируют значительный потенциал для улучшения, и наш агент DEMO имеет высокую производительность как в доменных, так и в недоменных задачах.

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

Оптимизация предпочтений с весами для имплицитной слияния моделей

Хотя слияние гетерогенных открытых LLM с различной архитектурой и размерами может потенциально интегрировать сильные стороны различных моделей, существующие методы слияния сталкиваются со значительными проблемами, такими как выравнивание словаря и объединение матриц распределения. Эти процессы не только сложны, но также подвержены высоким рискам возникновения шума и ошибок. В этой работе мы предлагаем неявный метод слияния, оптимизацию предпочтений с взвешенными наградами (WRPO), который использует оптимизацию предпочтений между исходными LLM и целевым LLM для эффективной передачи их возможностей. WRPO исключает необходимость в выравнивании словаря и слиянии матриц и может быть эффективно масштабирован для различных LLM. Для учета распределительных отклонений между исходными и целевыми LLM WRPO вводит прогрессивную стратегию адаптации, которая постепенно смещает зависимость от предпочтительных примеров от целевого LLM к исходным LLM. Обширные эксперименты на бенчмарках MT-Bench, AlpacaEval-2 и Arena-Hard демонстрируют, что WRPO последовательно превосходит существующие методы слияния знаний и различные базовые линии дообучения. При применении к LLaMA3-8B-Instruct в качестве целевой модели, WRPO достигает прироста в контролируемой длине на уровне 55.9% против GPT-4-Preview-1106 на AlpacaEval-2 и выигрыша в 46.2% против GPT-4-0314 на Arena-Hard. Наш код доступен по адресу https://github.com/SLIT-AI/WRPO.

U-MATH: Новый стандарт для оценки математических навыков в LLM

Текущая оценка математических навыков в LLM ограничена, поскольку существующие эталоны либо относительно малы, сосредоточены преимущественно на задачах начальной и средней школы, либо не имеют разнообразия по темам. Более того, включение визуальных элементов в задачи остается в значительной степени недостаточно исследованным. Чтобы устранить эти пробелы, мы представляем U-MATH, новый эталон из 1100 неопубликованных открытых университетских задач, извлеченных из учебных материалов. Он сбалансирован по шести основным предметам, при этом 20% составляют мультимодальные задачи. Учитывая открытый характер задач U-MATH, мы используем LLM для оценки правильности сгенерированных решений. С этой целью мы выпускаем mu-MATH, набор данных для оценки возможностей LLM в оценке решений. Оценка LLM общего назначения, специализированных по математике и мультимодальных подчеркивает сложности, представляемые U-MATH. Наши результаты показывают, что LLM достигают максимальной точности всего 63% по текстовым задачам и даже более низких 45% по визуальным задачам. Оценка решений представляет собой сложную задачу для LLM, при этом лучший LLM-судья имеет F1-оценку 80% по mu-MATH.

AV-OdysseyBench: Понимают ли ваши мультимодальные LLM действительно аудиовизуальную информацию?

Недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включая визуальные и аудиомодальности. Хотя эти модели демонстрируют впечатляющие результаты в широком спектре аудиовизуальных приложений, наш предложенный DeafTest показывает, что MLLM часто испытывают трудности с простыми задачами, которые люди считают тривиальными: 1) определить, какой из двух звуков громче, и 2) определить, какой из двух звуков имеет более высокий тон. Мотивированные этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов. Чтобы обеспечить точную и объективную оценку ответов MLLM, мы структурировали вопросы в формате множественного выбора, что устраняет необходимость в человеческой оценке или оценке с помощью LLM. Мы оцениваем ряд закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезную информацию для будущего сбора данных и разработки моделей.

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

Простая и доказуемая законопроектная модель для вычислений в тестовом времени больших языковых моделей

Мы предлагаем общий двухступенчатый алгоритм, который имеет доказанное закон масштабирования для вычислений в тестовом режиме больших языковых моделей (LLM). Учитывая входную задачу, предложенный алгоритм сначала генерирует N кандидатных решений, а затем выбирает лучшее через многократный нокаут-турнир, в котором каждую пару кандидатов сравнивают K раз, и только победители переходят в следующий раунд. В минималистской реализации оба этапа могут быть выполнены с помощью только черного ящика LLM и ничем другим (например, без внешнего проверяющего или модели вознаграждения), и для решения входной задачи требуется всего N*(K + 1) высокопараллелизуемых вызовов LLM. Предполагая, что сгенерированное кандидатное решение верно с вероятностью p_{gen} > 0 и что сравнение между парой правильных и неправильных решений определяет правильного победителя с вероятностью p_{comp} > 0,5 (т.е. лучше, чем случайное угадывание), мы теоретически доказываем, что вероятность неудачи предложенного алгоритма экспоненциально стремится к нулю по отношению к N и K: $P(итоговый вывод неверен) ≤ (1 - p_{gen})^N + ext{ceil}( ext{log}_2 N) e^{-2 K (p_{comp} - 0.5)^2}$. Наши эмпирические результаты с трудным эталоном MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и улучшения от масштабирования его вычислений в тестовом режиме.

Оценка многоязычного понимания языка с учетом региональных знаний

Дискриминация производительности больших языковых моделей (LLM) между языками мешает их эффективному развертыванию во многих регионах, ограничивая потенциальную экономическую и социальную ценность инструментов генеративного ИИ во многих сообществах. Тем не менее, разработка функциональных LLM на многих языках (то есть, многоязычных LLM) сдерживается нехваткой ресурсов для оценки качеств на языках, отличных от английского. Более того, текущие практики в построении многоязычных контрольных испытаний часто переводят ресурсы на английский, игнорируя региональные и культурные знания об окружении, в котором будут использоваться многоязычные системы. В этой работе мы создаем набор оценочных данных из 197 243 пар вопросов и ответов из местных источников экзаменов, чтобы измерить возможности многоязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, является всеобъемлющим ориентированным на знания и рассуждение контрольным испытанием на 44 письменных языках, который оценивает многоязычные LLM по производительности в тех языковых средах, где они будут развернуты.

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

VLSBench: Понимание визуальных утечек в многомодальной безопасности

Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench

PhysGame: Открытие нарушений физической здравомыслия в игровом видео

Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) продемонстрировали появление различных возможностей для мышления и интерпретации динамического визуального контента. Среди них игровые видео выделяются как уникальный источник данных, часто содержащий сбои, которые противоречат физическим здравым рассуждениям. Эта характеристика делает их эффективным эталоном для оценки недостаточно исследованной способности к пониманию физического здравого смысла в видео LLMs. В этой статье мы предлагаем PhysGame как новаторский эталон для оценки нарушений физического здравого смысла в игровых видео. PhysGame включает в себя 880 видео, связанных со сбоями в четырех основных областях (т.е. механика, кинематика, оптика и свойства материалов) и охватывающих 12 различных аспектов физического здравого смысла. Проведя обширную оценку различных современных видео LLMs, мы обнаружили, что производительность текущих открытых видео LLMs значительно отстает от производительности проприетарных аналогов. Чтобы устранить этот разрыв, мы создали набор данных для настройки инструкций PhysInstruct с 140 057 парами вопросов и ответов для содействия обучению физического здравого смысла. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются в зависимости от вводящих в заблуждение заголовков (т.е. взлом метаинформации), меньшего числа кадров (т.е. временной взей) и более низкого пространственного разрешения (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, усиленный физическими знаниями. Обширные эксперименты по как физически ориентированному эталону PhysGame, так и общим эталонам видео понимания демонстрируют передовую производительность PhysVLM.

Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

Существующие задачи навигации по целям экземпляров, основанные на естественном языке, предполагают, что пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и неоднозначными. Чтобы преодолеть этот разрыв, мы предлагаем новую задачу — Совместная навигация по экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, свободных от шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод — Взаимодействие агента и пользователя с Осознанием Неопределенности (AIUTA), использующий восприятие возможностей Моделей Визуального Языка (VLM) и возможности Больших Языковых Моделей (LLM). Сначала, после обнаружения объекта, модель Само-Вопросителя инициирует самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности уменьшает неаккуратное восприятие VLM. Затем модуль Триггер Взаимодействия решает, следует ли задать вопрос пользователю, продолжать или остановить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, эталон, поддерживающий как реальных, так и смоделированных людей. AIUTA демонстрирует конкурентоспособные результаты в навигации по экземплярам по сравнению с передовыми методами, проявляя большую гибкость в обработке пользовательских вводов.

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

Автоматическая генерация изображений из текста: ChatGen

Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.

Интерливинг текстов и изображений: Новая эра генеративного ИИ

Многие реальные запросы пользователей (например, «Как сделать жареный рис с яйцом?») могут извлечь выгоду от систем, способных генерировать ответы с текстовыми шагами и сопутствующими изображениями, подобно кулинарным книгам. Модели, предназначенные для генерации чередующегося текста и изображений, сталкиваются с проблемами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную оценочную структуру для чередующейся генерации текста и изображений. ISG использует структуру графа сцены для захвата взаимосвязей между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях гранулярности: целостный, структурный, блочный и специфичный для изображения. Эта многоуровневая оценка позволяет провести тонкую оценку согласованности, последовательности и точности, а также предоставляет интерпретируемую обратную связь по вопросам и ответам. В дополнение к ISG мы представляем контрольный набор, ISG-Bench, охватывающий 1150 образцов в 8 категориях и 21 подкатегории. Этот контрольный набор данных включает сложные зависимости языка и зрения и золотые ответы для эффективной оценки моделей на задачах, ориентированных на зрительное восприятие, таких как перенос стиля, что является сложной областью для современных моделей. Используя ISG-Bench, мы демонстрируем, что недавние унифицированные модели языка и зрения показывают плохие результаты в генерации чередующегося контента. Хотя композиционные подходы, объединяющие отдельные языковые и изображенческие модели, демонстрируют улучшение на 111% по сравнению с унифицированными моделями на целостном уровне, их производительность остается субоптимальной как на блочном, так и на уровне изображений. Чтобы облегчить будущую работу, мы разработали ISG-Agent, базового агента, использующего конвейер "планировать-выполнить-совершенствовать" для вызова инструментов, достигая улучшения производительности на 122%.

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

SegBook: A Comprehensive Guide to Volumetric Medical Image Segmentation

Компьютерная томография (КТ) является одной из самых популярных модальностей для медицинской визуализации. КТ-изображения внесли наибольший вклад в создание общедоступных наборов данных для задач сегментации объемных медицинских изображений, охватывающих анатомические структуры всего тела. Большое количество изображений КТ всего тела предоставляет возможность предварительно обучать мощные модели, например, STU-Net, обученную в контролируемом режиме, для сегментации множества анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные задачи медицинской сегментации, особенно при сегментации других модальностей и разнообразных целей. Для решения этой проблемы важно создать крупномасштабный эталон для всеобъемлющей оценки условий переноса. Таким образом, мы собрали 87 публичных наборов данных, различающихся по модальности, цели и размеру выборки, для оценки способности к переносу моделей, предварительно обученных на КТ всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения с переносом через модальности и цели. Наши экспериментальные результаты показывают, что (1) может существовать эффект узкого места, связанный с размером набора данных при тонкой настройке, с большим улучшением как на малых, так и на больших наборах данных, чем на средних. (2) Модели, предварительно обученные на КТ всего тела, демонстрируют эффективный перенос модальностей, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на КТ всего тела не только поддерживает высокую производительность в обнаружении структур, но и показывает эффективность в обнаружении поражений, демонстрируя адаптивность по отношению к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения с переносом сможет направить будущие исследования в области сегментации объемных медицинских изображений.

Путь к репликации O1: Простая дистилляция и её последствия

Эта статья представляет собой критический анализ текущих подходов к репликации возможностей модели O1 от OpenAI, с особым акцентом на широко распространённое, но часто не раскрываемое использование техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к репликации O1, данное исследование показывает, как простая дистилляция с использованием API O1, в сочетании с контролируемой настройкой, может достигать превосходных результатов в сложных задачах математического рассуждения. Путём обширных экспериментов мы показываем, что базовая модель, настроенная на десятки тысяч образцов, дистиллированных из O1, превосходит предварительную версию O1 на Американском пригласительном математическом экзамене (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за рамки математического рассуждения и исследует возможности обобщения моделей, дистиллированных из O1, на разнообразные задачи: галлюцинации, безопасность и вопросы и ответы в открытом домене. Отметим, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого QA и стали значительно менее подвержены подхалимству после настройки. Мы намеренно публикуем эти результаты для содействия прозрачности в исследованиях ИИ и для оспаривания текущей тенденции к скрытию технических утверждений в этой области. Наша работа включает: (1) детальное техническое изложение процесса дистилляции и его эффективности, (2) всеобъемлющую рамку бенчмарков для оценки и категоризации попыток репликации O1 на основе их технической прозрачности и воспроизводимости, (3) критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции. Наш анализ завершается важным горьким уроком: хотя стремление к созданию более способных систем ИИ важно, развитие исследователей, опирающихся на мышление с первых принципов, является первостепенным.

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

EdgeCape: Революционный подход к категорийно-независимой оценке поз

Категория-агностическая оценка позы (CAPE) позволяет локализовать ключевые точки на различных категориях объектов с помощью одной модели, используя одну или несколько аннотированных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов графа, а не изолированных точек) помогает справляться с перекрытиями и разрывами симметрии. Однако эти методы предполагают статичный граф позы с равновесными рёбрами, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения, предсказывая веса рёбер графа, что оптимизирует локализацию. Для дальнейшего использования структурных предпосылок мы предлагаем интеграцию марковского структурного смещения, которое модулирует взаимодействие само-внимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оценка на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, показала, что EdgeCape достигает результатов на уровне лучших в мире в 1-шотовом режиме и лидирует среди методов схожих размеров в 5-шотовом режиме, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

Гибкая методология разработки защитных механизмов для крупных языковых моделей: применение к обнаружению офф-топик запросов

Крупные языковые модели склонны к нецелевому использованию, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Текущие ограничительные механизмы, которые часто опираются на курированные примеры или специализированные классификаторы, страдают от высокого уровня ложноположительных срабатываний, ограниченной адаптации и нецелесообразности требования реальных данных, которые недоступны на стадии предварительного производства. В данной статье мы представляем гибкую методологию разработки ограничительных механизмов без использования данных, которая решает эти проблемы. Определяя проблемное пространство качественно и передавая эту информацию в языковую модель для генерации разнообразных запросов, мы создаем синтетический набор данных для тестирования и обучения ограничительных механизмов, которые превосходят эвристические подходы. Кроме того, формулируя задачу как классификацию релевантности пользовательского запроса относительно системного запроса, наши ограничительные механизмы эффективно обобщают на другие категории нецелевого использования, включая взлом системы и вредоносные запросы. Наконец, мы вносим вклад в эту область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничительных механизмов, предоставляя ценные ресурсы для разработки ограничительных механизмов в предварительно-производственных средах и поддерживая дальнейшие исследования и разработки в области безопасности LLM.

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

BALROG: Оценка агентных возможностей LLM и VLM на играх

Крупные языковые модели (LLMs) и модели языка с визуальными элементами (VLMs) обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению; однако, они всё ещё испытывают трудности в эффективной работе в сложных, динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного рассуждения, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых у нас нет эффективных методик для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы представляем BALROG, новую эталонную платформу, разработанную для оценки агентских способностей LLMs и VLMs через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред для обучения с подкреплением с различным уровнем сложности, от задач, которые могут быть решены неспециалистами за секунды, до крайне сложных, которые могут потребовать лет для освоения (например, среда обучения NetHack). Мы разработали детальные метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLMs и VLMs. Наши выводы показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно отстают в решении более сложных задач. Особенно заметны серьезные недостатки в принятии решений на основе визуальной информации, поскольку модели показывают худшие результаты, когда предоставляются визуальные представления среды. Мы выпускаем BALROG как открытую и удобную для пользователя эталонную платформу, чтобы способствовать дальнейшим исследованиям и разработкам в сообществе агентских систем.

VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

Прогресс в области крупномасштабных моделей языков зрения (LVLMs) значительно улучшил понимание мультимодальных данных, однако задачи по рассуждению на основе видео по-прежнему сталкиваются с трудностями из-за недостатка качественных, масштабных датасетов. Существующие наборы данных для вопросно-ответных систем на видео (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или от автоматических методов построения с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложных рассуждений. Чтобы решить эти проблемы, мы представляем VideoEspresso, новый датасет, который включает пары VideoQA, сохраняющие ключевые пространственные детали и временную последовательность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша конвейерная линия построения использует метод, ориентированный на семантику, для снижения избыточности, после чего генерируются пары ВО с помощью GPT-4o. Мы также развиваем аннотации видеосвязей мыслей (CoT) для обогащения процессов рассуждения, направляя GPT-4o на извлечение логических связей из пар ВО и содержимого видео. Для использования потенциала высококачественных пар VideoQA, мы предлагаем фреймворк сотрудничества гибридных LVLMs, включающий в себя селектор кадров и двухэтапную инструкцию, настроенную на рассуждения LVLM. Этот фреймворк адаптивно выбирает ключевые кадры и выполняет рассуждения по методу CoT с использованием мультимодальных доказательств. Оцененный на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLMs, наш метод превосходит существующие базовые модели по большинству задач, демонстрируя превосходные возможности рассуждений по видео. Наш код и датасет будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso.

Усиление способностей к мультимодальному рассуждению с помощью оптимизации смешанных предпочтений

Существующие открытые мультимодальные крупные языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и настройку под надзором. Однако эти модели страдают от сдвигов распределения, что ограничивает их мультимодальное рассуждение, особенно в задачах цепочки рассуждений (Chain-of-Thought, CoT). Чтобы решить эту проблему, мы вводим процесс оптимизации предпочтений (PO), чтобы улучшить мультимодальные способности к рассуждению MLLM. В частности: 1. **На стороне данных** мы разработали автоматизированный конвейер для создания предпочтительных данных, чтобы создать MMPR - высококачественный, крупномасштабный набор данных мультимодальных предпочтений для рассуждений. 2. **На стороне модели** мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанной Оптимизацией Предпочтений (Mixed Preference Optimization, MPO), который улучшает мультимодальную производительность CoT. Наш подход демонстрирует улучшение результатов на нескольких бенчмарках, особенно в задачах мультимодального рассуждения. В частности, наша модель, InternVL2-8B-MPO, достигла точности 67.0 на MathVista, опережая InternVL2-8B на 8.7 пунктов и показывая результаты, сравнимые с InternVL2-76B, которая в 10 раз больше. Мы надеемся, что это исследование вдохновит на дальнейшие улучшения в области MLLM. Код, данные и модель будут доступны для общественности.

Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать нарастающий объем литературы. Могут ли крупные языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с дополнительной функцией извлечения информации, которая отвечает на научные запросы, определяя релевантные отрывки из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный бенчмарк для поиска литературы в нескольких областях, включающий 2967 запросов, написанных экспертами, и 208 длинных ответов в области информатики, физики, нейронаук и биомедицины. На ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что это меньшая и открытая модель. В то время как GPT-4o фальсифицирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Система хранения данных, извлекатель и петля самокоррекции OpenScholar также улучшают стандартные модели LM: например, OpenScholar-GPT4o повышает правильность ответов GPT-4o на 12%. В оценках, проведенных экспертами, предпочтение OpenScholar-8B и OpenScholar-GPT4o было отдано в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы делаем открытыми все наши коды, модели, хранилище данных, данные и демонстрационную версию.

Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) показала высокие результаты в задачах сегментации объектов, но сталкивается с трудностями в визуальном отслеживании объектов, особенно при управлении сценам, где много быстро движущихся или самозатмевающих объектов. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для настройки характеристик изображения на следующий кадр, что приводит к распространению ошибок в видео. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Включая временные движения с предложенным механизмом выбора памяти, чувствительным к движению, SAMURAI эффективно предсказывает движение объектов и уточняет выбор масок, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность без обучения на различных тестовых наборах данных, демонстрируя свою способность к обобщению без настройки. В оценках SAMURAI показывает значительные улучшения в показателях успеха и точности по сравнению с существующими трекерами, с увеличением AUC на 7,1% на LaSOT_{ext} и на 3,5% AO на GOT-10k. Кроме того, он показывает конкурентоспособные результаты по сравнению с полностью контролируемыми методами на LaSOT, подчеркивая его надежность в сложных сценариях отслеживания и потенциал для реальных приложений в динамических средах. Код и результаты доступны по адресу https://github.com/yangchris11/samurai.

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

BlueLM-V-3B: Алгоритм и системный дизайн для мультимодальных крупных языковых моделей на мобильных устройствах

Вот перевод текста на русский язык: --- Появление и растущая популярность мультимодальных крупных языковых моделей (MLLMs) обладают значительным потенциалом для улучшения различных аспектов повседневной жизни, от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые спутники повседневной жизни, представляют собой самую эффективную и доступную платформу для развертывания MLLMs, обеспечивая их бесшовную интеграцию в повседневные задачи. Однако развертывание MLLMs на мобильных телефонах представляет собой вызовы из-за ограничений в размере памяти и вычислительных возможностях, что затрудняет достижение плавной и реального времени обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, подход к совместному проектированию алгоритма и системы, специально адаптированный для эффективного развертывания MLLMs на мобильных платформах. В частности, мы перерабатываем схему динамического разрешения, принятую в основных MLLMs, и реализуем системную оптимизацию для развертывания с учетом аппаратных особенностей для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B выделяется следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиардами параметров и визуальный энкодер с 400 миллионами параметров. (2) Высокая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достигла наивысшего среднего балла 66,1 на бенчмарке OpenCompass среди моделей с параметрами ≤ 4B и превзошла серию моделей с гораздо большим размером параметров (например, MiniCPM-V-2.6, InternVL2-8B).

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

benchmarkqallms

SlimLM: Эффективная Малая Языковая Модель для Документальной Помощи на Мобильных Устройствах

В то время как небольшие языковые модели (SLMs) показывают перспективы для развертывания на мобильных устройствах, их реальная производительность и применение на смартфонах остаются недостаточно изученными. Мы представляем SlimLM, серию SLMs, оптимизированных для задач помощи с документами на мобильных устройствах. Проведя обширные эксперименты на Samsung Galaxy S24, мы определили оптимальный баланс между размером модели (от 125 миллионов до 7 миллиардов параметров), длиной контекста и временем вывода для эффективной обработки на устройстве. SlimLM предварительно обучена на SlimPajama-627B и дообучена на DocAssist, нашем собственном наборе данных для задач по суммаризации, ответам на вопросы и предложениям. Наша наименьшая модель демонстрирует эффективную работу на S24, в то время как более крупные варианты предлагают улучшенные возможности в рамках мобильных ограничений. Мы сравнили SlimLM с существующими SLMs, показав сопоставимую или превосходящую производительность, и предоставили эталон для будущих исследований в области языковых моделей, работающих на устройствах. Мы также предоставляем Android-приложение, дающее практические представления о развертывании SLM. Наши выводы предоставляют ценные инсайты и освещают возможности использования продвинутых языковых моделей на высококлассных смартфонах, что потенциально снижает серверные затраты и улучшает конфиденциальность за счет обработки на устройстве.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Извлечение Последовательности Действий Пользователя из Записей Экрана с Помощью ВЛМ

Видеозаписи активности пользователей, особенно записи с рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в области моделей видео-языкового взаимодействия (VLMs) и их возрастающее использование в анализе видео, извлечение действий пользователя из записей с рабочего стола остается малоизученной областью. В данной статье мы устраняем этот пробел, предлагая два новых метода на основе VLMs для извлечения действий пользователя: прямой подход на основе кадров (DF), при котором образцы кадров напрямую вводятся в VLMs, и дифференциальный подход на основе кадров (DiffF), который включает в себя явные различия кадров, выявляемые с помощью методов компьютерного зрения. Мы оцениваем эти методы, используя базовый самосоставленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что подход DF достигает точности от 70% до 80% в определении действий пользователя, при этом извлеченные последовательности действий могут быть воспроизведены через автоматизацию роботизированных процессов. Мы обнаружили, что хотя VLMs показывают потенциал, включение явных изменений пользовательского интерфейса может ухудшить производительность, что делает подход DF более надежным. Эта работа представляет собой первое применение VLMs для извлечения последовательностей действий пользователя из записей рабочего стола, внося вклад в новые методы, бенчмарки и инсайты для будущих исследований.

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей в 3D является важной и сложной задачей в области 3D восприятия, играющей ключевую роль в приложениях, таких как робототехника, создание 3D и редактирование 3D. Современные методы используют мощные модели распознавания языка и зрения (VLMs) для дистилляции знаний из 2D в 3D, достигая нулевого этапа сегментации частей в 3D. Однако эти методы ограничены зависимостью от текстовых запросов, что ограничивает их масштабируемость для работы с большими неразмеченными наборами данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую рамку для нулевого этапа сегментации частей 3D объектов, которая сегментирует любой 3D объект на семантические части с различной детализацией, не требуя предопределенных наборов меток частей в виде текстовых запросов. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции 3D извлечения признаков, что позволяет масштабировать на большие неразмеченные 3D наборы данных для изучения богатых 3D приоритетов. Для гибкости мы дистиллируем 3D признаки, зависящие от масштаба, осведомленные о частях, для сегментации частей 3D с различной детализацией. Получив сегментированные части из этих признаков, мы используем VLMs для присвоения семантических меток каждой части на основе мультивью рендеринга. В сравнении с предыдущими методами, наш SAMPart3D может масштабироваться на недавние крупномасштабные наборы данных 3D объектов, такие как Objaverse, и обрабатывать сложные, необычные объекты. Кроме того, мы вносим вклад в создание нового эталона для сегментации частей 3D, чтобы решить проблему недостатка разнообразия и сложности объектов и частей в существующих эталонах. Эксперименты показывают, что наш SAMPart3D значительно превосходит существующие методы нулевого этапа сегментации частей 3D и может способствовать различным приложениям, таким как редактирование на уровне частей и интерактивная сегментация.

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

Введение в IOPO: Оптимизация предпочтений входа-выхода для улучшения следования инструкциям в LLM

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям является ключевой, поскольку всё больше агентов и приложений используют LLM для разработки, где сложность инструкций быстро возрастает. Однако, с одной стороны, существует ограниченное количество данных для оценки сложных инструкций; с другой стороны, нет специализированных алгоритмов для улучшения способности следовать сложным инструкциям. В этой связи данная статья представляет TRACE, эталон для улучшения и оценки способности следовать сложным инструкциям, который включает 120 тысяч обучающих данных и 1 тысячу данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Input-Output Preference Optimization), который учитывает пары предпочтений входных и выходных данных, где LLM не только быстро адаптируются к предпочтениям ответов, но и тщательно исследуют предпочтения инструкций. Многочисленные эксперименты на данных внутри домена и за его пределами подтверждают эффективность IOPO, показывая улучшения на 8.15% и 2.18% для данных внутри домена и 6.29% и 3.13% для данных за пределами домена по сравнению с SFT и DPO соответственно.

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

GitChameleon: Разоблачение возможностей генерации версионного кода LLM

Быстрое развитие библиотек программного обеспечения представляет собой значительный вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки для автодополнения кода часто упускают из виду этот динамический аспект, а те, которые его учитывают, опираются на статические задачи предсказания кода без оценки на основе выполнения, предоставляя ограниченный взгляд на практическую применимость модели. Чтобы заполнить этот пробел, мы представляем **GitChameleon**, новый, вручную отобранный набор данных, состоящий из 116 задач автодополнения кода на Python, каждая из которых обусловлена конкретными версиями библиотек и сопровождается исполняемыми юнит-тестами. **GitChameleon** предназначен для тщательной оценки способности современных больших языковых моделей (LLM) генерировать код, специфичный для версии, который не только синтаксически правильный, но и функционально точен при выполнении. Наши комплексные оценки показывают, что передовые LLM сталкиваются с трудностями в решении этой задачи; например, GPT-4o достигает pass@10 всего 39.9% (43.7%, когда предоставляется обратная связь об ошибках), что подчеркивает сложность проблемы и ограничения текущих моделей. Предоставляя бенчмарк на основе выполнения, который подчеркивает динамическую природу библиотек кода, **GitChameleon** служит важным инструментом для продвижения разработки более адаптируемых и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, обусловленной версиями, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.

Китайский SimpleQA: Оценка фактичности больших языковых моделей

Новые бенчмарки для оценки крупных языковых моделей (LLM) важны для соответствия быстрому развитию этих моделей. В данной работе мы представляем Chinese SimpleQA — первый всеобъемлющий китайский бенчмарк для оценки способности языковых моделей отвечать на краткие вопросы с точки зрения фактичности. Chinese SimpleQA обладает пятью ключевыми характеристиками: китайский язык, разнообразие, высокое качество, статичность и простота оценки. В частности, во-первых, мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим всесторонний процесс контроля качества для обеспечения высокого качества вопросов и ответов, где эталонные ответы являются статичными и не могут изменяться со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень короткие, а процесс оценки прост благодаря использованию API OpenAI. На основе Chinese SimpleQA мы проводим комплексную оценку фактической способности существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA поможет разработчикам лучше понимать способности их моделей в китайском контексте и способствовать развитию базовых моделей.

Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."

Эффективное тонкое настройка крупных языковых моделей для генерации юнит-тестов: Эмпирическое исследование

Появление крупных языковых моделей (LLMs), таких как GitHub Copilot, значительно повысило продуктивность программистов, особенно в области генерации кода. Однако эти модели часто сталкиваются с трудностями при выполнении реальных задач без дообучения. По мере того как LLM становятся больше и более производительными, дообучение для специализированных задач становится все более дорогим. Методы параметрически-эффективного дообучения (PEFT), которые дообучают только подмножество параметров модели, предлагают перспективное решение, уменьшая вычислительные затраты на настройку LLM при сохранении их производительности. Существующие исследования исследовали использование PEFT и LLM для различных задач, связанных с кодом, и обнаружили, что эффективность методов PEFT зависит от задачи. Применение методов PEFT в генерации модульных тестов остается недостаточно изученным. На данный момент передовой уровень ограничивается использованием LLM с полным дообучением для генерации модульных тестов. В данной статье исследуются как полное дообучение, так и различные методы PEFT, включая LoRA, (IA)^3 и настройку запросов, для разных архитектур и размеров моделей. Мы используем хорошо установленные эталонные наборы данных для оценки их эффективности в генерации модульных тестов. Наши результаты показывают, что методы PEFT могут обеспечивать производительность, сравнимую с полным дообучением, для генерации модульных тестов, делая специализированное дообучение более доступным и экономически выгодным. Особенно стоит отметить, что настройка запросов является наиболее эффективной в плане затрат и использования ресурсов, в то время как метод LoRA приближается к эффективности полного дообучения в нескольких случаях.

M3D,OC,RAG: Революция в понимании документов с помощью многомодальных технологий

Визуальное ответное действие на вопросы из документов (DocVQA) обладает широкими возможностями применения. Существующие методы сосредоточены на обработке одностраничных документов с использованием мультимодальных языковых моделей (MLMs) или опираются на генерацию с улучшением через извлечение текста (RAG), которая использует инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако, существуют сложности в применении этих методов в реальных сценариях: (а) вопросы часто требуют информации из разных страниц или документов, где MLMs не могут обрабатывать множество длинных документов; (б) документы часто содержат важную информацию в визуальных элементах, таких как диаграммы, но инструменты извлечения текста их игнорируют. Мы представляем M3DocRAG, новую мультимодальную RAG-фреймворк, который гибко адаптируется к различным контекстам документов (закрытый и открытый домен), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, график, изображение и т.д.). M3DocRAG находит соответствующие документы и отвечает на вопросы, используя мультимодальный извлекатель и MLM, что позволяет эффективно обрабатывать один или множество документов, сохраняя при этом визуальную информацию. Поскольку предыдущие наборы данных DocVQA задавали вопросы в контексте конкретного документа, мы также представляем M3DocVQA, новый бенчмарк для оценки DocVQA в открытом домене с более чем 3000 PDF-документов и 40000+ страниц. В трех бенчмарках (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG с ColPali и Qwen2-VL 7B демонстрирует превосходные результаты по сравнению с многими сильными базовыми моделями, включая рекордные результаты в MP-DocVQA. Мы предоставляем всесторонний анализ различных индексов, MLMs и моделей извлечения. Наконец, мы качественно показываем, что M3DocRAG может успешно справляться с различными сценариями, например, когда соответствующая информация распределена по нескольким страницам и когда доказательства ответа существуют только в изображениях.

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

Динамические Агенты на Основе LLM: Преодоление Ограничений Предопределённых Действий

Существующие системы агентов LLM обычно выбирают действия из фиксированного и предопределённого набора на каждом шаге. Хотя такой подход эффективен в закрытых, узко специализированных средах, мы утверждаем, что он создаёт две основные проблемы при развертывании агентов LLM в реальных сценариях: (1) выбор из фиксированного набора действий значительно ограничивает возможности планирования и действий агентов LLM, и (2) этот подход требует значительных человеческих усилий для перечисления и реализации всех возможных действий, что становится нецелесообразным в сложных средах с огромным количеством потенциальных действий. В этой работе мы предлагаем фреймворк для агента LLM, который позволяет динамически создавать и комбинировать действия в режиме онлайн. В этом фреймворке агент взаимодействует с окружением, генерируя и выполняя программы, написанные на универсальном языке программирования на каждом шаге. Кроме того, созданные действия накапливаются со временем для повторного использования в будущем. Наши обширные эксперименты на бенчмарке GAIA показывают, что этот фреймворк обеспечивает значительно большую гибкость и превосходит предыдущие методы. Особенно стоит отметить, что он позволяет агенту LLM восстанавливаться в ситуациях, когда в предопределённом наборе нет соответствующих действий или когда существующие действия не работают из-за непредвиденных случаев. На момент написания статьи мы занимаем первое место в публичном рейтинге GAIA. Наш код можно найти по ссылке https://github.com/adobe-research/dynasaur.

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

MVPaint: Синхронизированная мульти-вью генерация для текстурирования 3D объектов

Текстурирование является ключевым этапом в рабочем процессе создания 3D-активов, который улучшает визуальное восприятие и разнообразие этих активов. Несмотря на последние достижения в области генерации текстур из текста (T2T), существующие методы часто дают неудовлетворительные результаты, в основном из-за локальных несоответствий, несогласованности по нескольким видам и их сильной зависимости от результатов разворачивания UV. Чтобы решить эти проблемы, мы предлагаем новую структуру генерации и доработки 3D текстурирования под названием MVPaint, которая способна создавать высококачественные, бесшовные текстуры, уделяя особое внимание согласованности многовидовой проекции. MVPaint в основном состоит из трех ключевых модулей: 1) **Синхронизированная генерация многовидовых изображений (SMG)**. На основе модели 3D-сетки MVPaint сначала одновременно генерирует изображения с нескольких видов, используя модель SMG, что приводит к грубым результатам текстурирования с непокрашенными частями из-за отсутствующих наблюдений. 2) **Пространственно-ориентированная 3D-ретушь (S3I)**. Для обеспечения полного текстурирования 3D, мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее не наблюдаемых областей. 3) **Уточнение UV (UVR)**. Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в UV-пространстве, который сначала выполняет сверхразрешение в UV-пространстве, за которым следует алгоритм сглаживания швов, ориентированный на пространство, для исправления пространственных несоответствий в текстурировании, вызванных разворачиванием UV. Кроме того, мы создаем две оценочные бенчмарки T2T: бенчмарк Objaverse T2T и бенчмарк GSO T2T, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие методы наилучших практик. В частности, MVPaint может генерировать высококачественные текстуры с минимальными проблемами Janus и значительно улучшенной согласованностью между видами.

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.

Торговля точностью и производительностью в квантовании LLM: Обзор и анализ

Несмотря на популярность квантизации крупных языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромиссов между точностью и производительностью, связанных с различными форматами квантизации. Мы представляем всестороннее эмпирическое исследование точности квантизированных моделей, оценивая популярные форматы квантизации (FP8, INT8, INT4) на академических тестах и реальных задачах для всей семейства моделей Llama-3.1. Кроме того, наше исследование анализирует различия в тексте, генерируемом квантизированными моделями, по сравнению с их не сжатыми аналогами. Помимо тестов, мы также представляем несколько улучшений в квантизации, которые позволили нам достичь результатов по восстановлению точности на уровне лучших в своем классе. Наше исследование, включающее более 500,000 индивидуальных оценок, дает несколько ключевых выводов: (1) квантизация весов и активаций в формате FP8 (W8A8-FP) является без потерь на всех масштабах моделей, (2) квантизация весов и активаций в формате INT8 (W8A8-INT), при правильной настройке, приводит к неожиданно низкому снижению точности на 1-3%, и (3) квантизация только весов в формате INT4 (W4A16-INT) является конкурентоспособной по сравнению с 8-битной целочисленной квантизацией весов и активаций. Для ответа на вопрос о «лучшем» формате для конкретной среды развертывания, мы проводим анализ производительности вывода с использованием популярной открытой платформы vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает наилучшую стоимостную эффективность для синхронных развертываний, а также для асинхронного развертывания на GPU среднего уровня. В то же время, форматы W8A8 превосходят в асинхронном развертывании с «непрерывной пакетной обработкой» средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантизированных LLM в различных масштабах и требованиях к производительности.

OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.

Оценка потенциала ИИ в научных исследованиях: Бенчмарк AAAR-1.0

Многочисленные исследования оценивали эффективность систем ИИ, особенно крупных языковых моделей (LLM), в выполнении повседневных задач, таких как написание электронных писем, ответы на вопросы и создание креативного контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями при использовании LLM для своей работы, например, для мозгового штурма исследовательских идей, проектирования экспериментов и написания или рецензирования научных статей. В данном исследовании мы представляем AAAR-1.0, набор данных для оценки, разработанный для оценки производительности LLM в трех основных, требующих высокой квалификации, исследовательских задачах: (i) EquationInference — оценка корректности уравнений на основе контекстной информации в представленных статьях; (ii) ExperimentDesign — проектирование экспериментов для проверки исследовательских идей и решений; (iii) PaperWeakness — выявление слабых мест в представленных статьях; и (iv) REVIEWCRITIQUE — определение, какие сегменты в рецензиях людей недостаточны или нет. AAAR-1.0 отличается от предыдущих эталонных тестов двумя ключевыми способами: во-первых, он ориентирован на исследования, с задачами, требующими глубоких знаний в области; во-вторых, он ориентирован на исследователей, отражая основные виды деятельности, которыми исследователи занимаются ежедневно. Оценка как открытых, так и проприетарных LLM выявляет их потенциал, а также ограничения в проведении сложных исследовательских задач. Мы будем продолжать итерацию AAAR-1.0 до новых версий.

Как язык помогает обучению воплощенных агентов: исследование информативности и разнообразия

В реальных сценариях желательно, чтобы воплощенные агенты имели способность использовать человеческий язык для получения явного или неявного знания для выполнения задач обучения. Несмотря на недавние успехи, большинство предыдущих подходов используют простые низкоуровневые инструкции в качестве языкового ввода, что может не отражать естественное человеческое общение. Неясно, как интегрировать богатое использование языка для облегчения обучения задачам. Для решения этого вопроса в данной статье исследуются различные типы языковых вводов, способствующих обучению воплощенных агентов с использованием методов подкрепления (RL). Более конкретно, мы рассматриваем, как различные уровни информативности языка (т.е., обратная связь по прошлому поведению и будущие указания) и разнообразие (т.е., вариативность языковых выражений) влияют на обучение и вывод агента. Наши эмпирические результаты, основанные на четырех RL-эталонах, показывают, что агенты, обученные с разнообразной и информативной языковой обратной связью, могут достичь улучшенной обобщаемости и быстрой адаптации к новым задачам. Эти выводы подчеркивают ключевую роль использования языка в обучении воплощенных агентов новым задачам в открытом мире. Сайт проекта: https://github.com/sled-group/Teachable_RL

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.

DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео

Отслеживание плотного 3D движения с монокулярных видеозаписей остается сложной задачей, особенно когда целью является точность на уровне пикселей в течение длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения по всему видео. Наш подход использует совместный глобально-локальный механизм внимания для отслеживания с пониженным разрешением, за которым следует апсемплер на основе трансформера для достижения высокоточных прогнозов в высоком разрешении. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в большом масштабе, работая более чем в 8 раз быстрее предыдущих методов и достигая рекордной точности. Более того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких тестовых площадках, достигая новых рекордных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предлагает надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.