Ай Дайджест - категория evaluation

Графические пользовательские интерфейсы (GUI) и их агенты: Обзор современных исследований

Графические интерфейсы пользователей (GUI) на основе крупных базовых моделей стали трансформационным подходом для автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя человеческие действия, такие как щелчки мышью, набор текста и навигация по визуальным элементам на различных платформах. Учитывая растущий интерес и фундаментальную важность агентов GUI, мы предоставляем всеобъемлющий обзор, который классифицирует их контрольные точки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая описывает их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выделяем важные открытые вызовы и обсуждаем ключевые направления будущего. Наконец, эта работа служит основой для практиков и исследователей, чтобы получить интуитивное понимание текущего прогресса, техник, контрольных точек и критических открытых проблем, которые необходимо решить.

2024-12-19models challenges agents

RAG-RewardBench: Оценка моделей вознаграждения в контексте генерации с использованием дополненной выборки

Несмотря на значительный прогресс, достигнутый существующими языковыми моделями с дополненной извлечением (RALMs) в обеспечении надежных ответов и оснований на надежных источниках, они часто упускают из виду эффективное согласование с предпочтениями человека. В процессе согласования модели вознаграждения (RMs) выступают в качестве важного прокси для человеческих ценностей, чтобы направлять оптимизацию. Однако до сих пор неясно, как оценить и выбрать надежную RM для согласования предпочтений в RALMs. В этой связи мы предлагаем RAG-RewardBench, первую оценочную таблицу для оценки RMs в условиях RAG. Сначала мы разрабатываем четыре ключевых и сложных сценария, специфичных для RAG, для оценки RMs, включая многоступенчатое рассуждение, детальную цитату, соответствующее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть извлекателей и 24 RALMs, чтобы увеличить разнообразие источников данных. Наконец, мы используем подход LLM-as-a-judge для повышения эффективности и результативности аннотирования предпочтений, демонстрируя сильную корреляцию с аннотациями человека. На основе RAG-RewardBench мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также обнаруживаем, что уже обученные RALMs почти не показывают улучшения в согласовании предпочтений, подчеркивая необходимость перехода к обучению, основанному на предпочтениях. Мы публикуем нашу оценочную таблицу и код в открытом доступе по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих исследований.

2024-12-19evaluation benchmark preference

OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.

2024-12-18llm rag benchmark

Возможности LLM в стабильном рассуждении: анализ G-Pass@k и LiveMathBench

Быстрый прогресс больших языковых моделей (LLM) продемонстрировал заметные достижения в сложных задачах рассуждения. Однако существует значительное несоответствие между эталонными показателями и реальными приложениями. Мы определяем этот разрыв как в первую очередь происходящий от текущих протоколов и метрик оценки, которые неадекватно отражают весь спектр возможностей LLM, особенно в сложных задачах рассуждения, где как точность, так и последовательность имеют решающее значение. Эта работа делает два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая предоставляет непрерывную оценку производительности модели по нескольким попыткам выборки, количественно оценивая как потенциал максимальной производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамическую эталонную базу, состоящую из сложных, современных математических задач, разработанных с целью минимизировать риски утечек данных во время оценки. Через обширные эксперименты с использованием G-Pass@k на современных LLM с LiveMathBench мы предоставляем всесторонние впечатления как о их максимальных возможностях, так и о операционной последовательности. Наши результаты показывают значительные возможности для улучшения «реалистичных» способностей рассуждения LLM, подчеркивая необходимость более надежных методов оценки. Эталон и детализированные результаты доступны по адресу: https://github.com/open-compass/GPassK.

2024-12-18evaluation metrics benchmark

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

2024-12-18multimodal accuracy benchmark

Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.

2024-12-18navigation generalization evaluation

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

2024-12-17explainability sampling scalability

Меньшие языковые модели лучше эволюционеров инструкций

Настройка инструкций широко используется для раскрытия полного потенциала больших языковых моделей. Примечательно, что сложные и разнообразные инструкции имеют значительное значение, так как они могут эффективно согласовывать модели с различными задачами. Тем не менее, текущие подходы к созданию масштабных инструкций преимущественно отдают предпочтение мощным моделям, таким как GPT-4 или тем, у которых более 70 миллиардов параметров, основываясь на эмпирическом предположении о том, что такие большие языковые модели (LLM) по своей сути обладают улучшенными возможностями. В данном исследовании мы ставим под сомнение это распространенное предположение и проводим глубокое исследование потенциала меньших языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что меньшие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дальнейший анализ демонстрирует, что SLM обладают более широким пространством выходов во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также отмечаем, что существующие метрики не акцентируют внимание на воздействии инструкций. Таким образом, мы предлагаем IFD с учетом сложности инструкции (IC-IFD), который вводит сложность инструкции в оригинальную оценку IFD для более точной оценки эффективности данных инструкций. Наш исходный код доступен по адресу: https://github.com/HypherX/Evolution-Analysis

2024-12-17tuning parameters evolution

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

2024-12-17toolkit evaluation nlp

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

2024-12-17synthesis evaluation training

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

2024-12-16evaluation model language

Большие Модели Действий: От Концепции к Реализации

По мере того как ИИ продолжает развиваться, возрастает потребность в системах, которые выходят за рамки языковой помощи и переходят к интеллектуальным агентам, способным выполнять действия в реальном мире. Эта эволюция требует перехода от традиционных больших языковых моделей (LLM), которые отлично справляются с генерацией текстовых ответов, к большим моделям действий (LAM), разработанным для генерации и выполнения действий в динамических средах. Обеспеченные агентными системами, LAM имеют потенциал преобразовать ИИ из пассивного языкового понимания в активное выполнение задач, что отмечает значимый этап в прогрессе к искусственному общему интеллекту. В этой статье мы представляем обширную структуру для разработки LAM, предлагая систематический подход к их созданию, от замысла до развертывания. Мы начинаем с обзора LAM, подчеркивая их уникальные характеристики и обозначая их отличия от LLM. Используя основанного на операционной системе Windows агента в качестве примера, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию среды, основание и оценку. Этот обобщаемый рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем, определяя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного развертывания, подчеркивая вызовы и возможности, которые ждут впереди в реализации полного потенциала LAM в реальных приложениях. Код для процесса сбора данных, использованный в этой статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, а обширная документация доступна по адресу https://microsoft.github.io/UFO/dataflow/overview/.

2024-12-16evaluation ai data

ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.

2024-12-13heterogeneity incompleteness evaluation

Влияние авторских материалов на большие языковые модели: Норвежская перспектива

Использование материалов с авторскими правами в обучении генеративных языковых моделей поднимает критически важные юридические и этические вопросы. В данной статье представлен фреймворк и результаты эмпирической оценки влияния материалов с авторскими правами на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на оценку моделей по разнообразным норвежским эталонам, в то время как художественные произведения, возможно, приводят к снижению производительности. Наши эксперименты могут способствовать созданию схемы компенсации для авторов, чьи работы вносят вклад в развитие ИИ.

2024-12-13copyright language ethics

AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников

Графические интерфейсы пользователя (GUI) имеют большой потенциал для автоматизации сложных задач в различных цифровых средах, от веб-приложений до настольного программного обеспечения. Однако развитие таких агентов затрудняется отсутствием качественных данных о многоступенчатых траекториях, необходимых для эффективного обучения. Существующие подходы полагаются на дорогую и трудоемкую аннотацию людьми, что делает их неустойчивыми в больших масштабах. Для решения этой проблемы мы предлагаем AgentTrek, масштабируемый поток данных синтеза, который генерирует качественные траектории GUI-агентов, используя веб-уроки. Наш метод автоматически собирает тексты, подобные учебникам, из интернета, трансформирует их в цели задач с пошаговыми инструкциями и использует агента модели визуального языка для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение GUI-агентов с помощью этих синтезированных траекторий значительно улучшает их основание и планирование по сравнению с существующими моделями. Более того, наш подход более экономически эффективен по сравнению с традиционными методами аннотации людьми. Эта работа подчеркивает потенциал управляемого воспроизведения с помощью веб-уроков как жизнеспособной стратегии для обучения GUI-агентов в больших масштабах, открывая путь к более способным и автономным цифровым агентам.

2024-12-13gui automation agents

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

2024-12-13benchmark translation neural

Экосистема BrowserGym для исследований веб-агентов

Экосистема BrowserGym отвечает на растущую необходимость в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, кто использует автоматизацию и большие языковые модели (LLM) для задач веб-взаимодействия. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя единое, подобное спортзалу окружение с четко определенными пространствами наблюдения и действия, облегчая стандартизированную оценку среди различных бенчмарков. В сочетании с AgentLab, дополнительной структурой, которая помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, одновременно обеспечивая последовательную оценку и всестороннее управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения мы проводим первый крупномасштабный эксперимент с веб-агентами, основанный на нескольких бенчмарках, и сравниваем производительность 6 современных LLM по всем бенчмаркам, в настоящее время доступным в BrowserGym. Среди прочих выводов, наши результаты подчеркивают большое несоответствие между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet занимает лидирующие позиции почти во всех бенчмарках, кроме задач, связанных с визуализацией, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что построение надежных и эффективных веб-агентов остается значительной проблемой из-за присущей сложности реальных веб-сред и ограничений текущих моделей.

2024-12-12automation benchmarking analysis

Я не знаю: явное моделирование неопределенности с помощью токена [IDK]

Большие языковые модели известны тем, что они захватывают знания о реальном мире, что позволяет им преуспевать во многих последующих задачах. Несмотря на недавние достижения, эти модели все еще подвержены тому, что обычно называют «галлюцинациями», что приводит к тому, что они выдают нежелательный и фактически неправильный текст. В этой работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перемещает массу вероятностей к токену [IDK] для неправильных предсказаний. Этот подход позволяет модели явно выражать неопределенность в своих выходных данных. Мы оцениваем наш предложенный метод на нескольких архитектурах модели и фактических задачах. Мы обнаруживаем, что модели, обученные с нашим методом, способны выражать неопределенность в местах, где ранее они допускали ошибки, при этом теряя только небольшую часть закодированных знаний. Кроме того, мы проводим обширные аблационные исследования нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.

2024-12-12models hallucinations uncertainty

MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержание внутри изображений на различные языки. Однако существующие наборы данных часто страдают от ограничений по масштабу, разнообразию и качеству, что препятствует разработке и оценке моделей IT. Чтобы решить эту проблему, мы представляем MIT-10M, крупномасштабный параллельный корпус многоязычного перевода изображений с более чем 10 миллионами пар изображений и текста, полученных из реальных данных, которые прошли тщательную очистку и проверку многоязычного перевода. Он содержит 840 тысяч изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 языков пар изображений и текста, что является значительным улучшением существующих наборов данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает высокой адаптивностью при оценке производительности моделей в решении сложных задач перевода изображений в реальном мире. Более того, производительность модели, дообученной на MIT-10M, утроилась по сравнению с базовой моделью, что дополнительно подтверждает ее превосходство.

2024-12-12translation performance images

3DSRBench: Комплексный Бенчмарк Пространственного Рассуждения в 3D

3D пространственное мышление – это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в 3D-пространстве. Это позволяет моделям развивать всестороннее понимание 3D-сцены, что делает их применимыми для более широкого диапазона областей, таких как автономная навигация, робототехника и дополненная/виртуальная реальность. Несмотря на то, что крупные многомодальные модели (LMMs) добились значительного прогресса в широком диапазоне задач по пониманию изображений и видео, их способности выполнять 3D пространственное мышление на различных природных изображениях изучены меньше. В этой работе мы представляем первую всестороннюю оценку 3D пространственного мышления – 3DSRBench, с 2,772 вручную аннотированными парами визуальных вопросов-ответов по 12 типам вопросов. Мы проводим тщательную и надежную оценку возможностей 3D пространственного мышления, балансируя распределение данных и применяя новую стратегию FlipEval. Чтобы дополнительно изучить надежность 3D пространственного мышления относительно 3D-углов обзора камеры, наш 3DSRBench включает два поднабора с вопросами по 3D пространственному мышлению на парных изображениях с общими и необычными углами обзора. Мы исследуем широкий спектр открытых и собственных LMM, выявляя их ограничения в различных аспектах 3D осведомленности, таких как высота, ориентация, местоположение и многократное объектное мышление, а также их ухудшенные показатели на изображениях с необычными углами обзора камеры. Наш 3DSRBench предоставляет ценные данные и insights для будущего развития LMM с сильными возможностями 3D мышления. Наша проектная страница и набор данных доступны по адресу https://3dsrbench.github.io.

2024-12-12models 3d navigation

LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

Недавние достижения в генерации изображений из текста (T2I) продемонстрировали выдающиеся результаты в создании высококачественных изображений на основе текста. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации составных изображений с участием нескольких объектов и сложными взаимосвязями. Мы связываем эту проблему с ограничениями существующих наборов данных пар изображений и текста, которые не содержат точных аннотаций взаимосвязей между объектами и имеют только подсказки. Чтобы решить эту проблему, мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями графов сцен (SG), которые точно описывают атрибуты и взаимосвязи нескольких объектов, эффективно представляя семантическую структуру в сложных сценах. На основе LAION-SG мы обучаем новую базовую модель SDXL-SG, чтобы интегрировать информацию о структурных аннотациях в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительные улучшения производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели по генерации составных изображений, устанавливая новый стандарт в этой области.

2024-12-12semantics dataset annotations

Track4Gen: Улучшение генерации видео с помощью отслеживания точек

Хотя современные генераторы видео создают визуально насыщенный контент, они все еще сталкиваются с проблемой дрейфа внешнего вида, когда объекты постепенно теряют четкость или меняются непоследовательно в разных кадрах, нарушая визуальную согласованность. Мы предполагаем, что это происходит из-за отсутствия явного контроля в терминах пространственного слежения на уровне признаков. Мы предлагаем Track4Gen, генератор видео, обладающий пространственной осведомленностью, который сочетает в себе затраты на диффузию видео с отслеживанием точек в разных кадрах, обеспечивая улучшенное пространственное управление признаками диффузии. Track4Gen объединяет задачи генерации видео и отслеживания точек в одну сеть, внося минимальные изменения в существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединить генерацию видео и отслеживание точек, которые обычно рассматриваются как отдельные задачи. Наши обширные оценки показывают, что Track4Gen эффективно снижает дрейф внешнего вида, что приводит к временно стабильной и визуально согласованной генерации видео. Страница проекта: hyeonho99.github.io/track4gen

2024-12-12coherence supervision evaluation

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

2024-12-11generation diffusion multi-modal

HARP: Улучшение производительности языковых моделей с помощью осведомленности о колебаниях и переосмысления

Эта работа нацелена на улучшение производительности больших языковых моделей, устраняя переменные вычислительные требования на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP — простую модификацию прямого прохода трансформеров "с полки". Опираясь на колебания и эффект кадрирования в процессе принятия решений, HARP избирательно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь в сложные моменты принятия решений и переформулируя ввод для получения другой перспективы. В отличие от других подходов, HARP является независимым от модели, не требует обучения и прост в реализации. Мы тщательно оцениваем наш метод по различным конечным задачам и размерам моделей, демонстрируя улучшения производительности до +5,16%. Примечательно, что HARP достигает этих успехов, сохраняя время вывода в два раза быстрее, чем метод «лестницы». Простой и в то же время приносящий значительные преимущества, HARP предлагает практическое решение для повышения производительности языковых моделей на основе трансформеров с минимальным вычислительным влиянием.

2024-12-11inference model performance

Контекстуализированная контрречь: стратегии адаптации, персонализации и оценки

Сгенерированная ИИ контрречь предлагает многообещающую и масштабируемую стратегию для сокращения онлайн-токсичности через прямые ответы, которые способствуют гражданскому дискурсу. Однако текущая контрречь является универсальной, не адаптированной к контексту модерации и вовлеченным пользователям. Мы предлагаем и оцениваем несколько стратегий генерации адаптированной контрречи, которая подстраивается под контекст модерации и персонализируется для пользователя, подвергающегося модерации. Мы обучаем модель LLaMA2-13B генерировать контрречь, экспериментируя с различными конфигурациями на основе различной контекстуальной информации и стратегий дообучения. Мы определяем конфигурации, которые генерируют убедительную контрречь с помощью комбинации количественных показателей и человеческих оценок, собранных в ходе заранее зарегистрированного эксперимента по краудсорсингу смешанного дизайна. Результаты показывают, что контекстуализированная контрречь может значительно превосходить самые современные универсальные контрречи по адекватности и убеждающей силе, не ухудшая другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и человеческими оценками, что предлагает, что эти методы оценивают разные аспекты и подчеркивает необходимость более тонких методологий оценки. Эффективность контекстуализированной сгенерированной ИИ контрречи и расхождение между человеческими и алгоритмическими оценками подчеркивают важность увеличенного сотрудничества человека и ИИ в модерации контента.

2024-12-11ai personalization strategy

Полностью открытый исходный код Moxin-LLM: Технический отчет

Недавно большие языковые модели (LLM) претерпели значительную трансформацию, отмеченную быстрым ростом как их популярности, так и возможностей. Ведущими в этой эволюции являются проприетарные LLM, такие как GPT-4 и GPT-01, которые привлекли широкое внимание в сообществе ИИ благодаря своим выдающимся показателям и универсальности. Одновременно открытые LLM, такие как LLaMA и Mistral, внесли большой вклад в постоянно растущую популярность LLM благодаря легкости настройки и развертывания моделей в различных приложениях. Хотя открытые LLM предоставляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения по поводу прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют основным требованиям прозрачности, удерживая важные компоненты, такие как код и данные для обучения, а некоторые используют ограничительные лицензии, утверждая, что они "открытые", что может препятствовать дальнейшим инновациям в области LLM. Чтобы смягчить эту проблему, мы представляем Moxin 7B, полностью открытый LLM, разработанный в соответствии с рамками открытости моделей (MOF), системой ранговой классификации, которая оценивает модели ИИ на основе полноты модели и открытости, соблюдая принципы открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря комплексному выпуску кода и конфигураций дообучения, наборов данных для обучения и тонкой настройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель демонстрирует превосходные результаты в нулевом тестировании по сравнению с популярными 7B моделями и показывает конкурентные результаты в тестировании с малым количеством примеров.

2024-12-11open-source performance transparency

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

2024-12-11diversity extraction pipeline

Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении

Поскольку языковые модели регулярно делают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждения становится все более значимой для их масштабируемого контроля. В данной статье мы представляем ProcessBench для оценки способности идентифицировать ошибочные шаги в математическом рассуждении. Он состоит из 3400 тестовых случаев, в основном сосредоточенных на задачах математики уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с аннотированным местом ошибки, отмеченным человеческими экспертами. Модели должны идентифицировать самый ранний шаг, содержащий ошибку, или сделать вывод о том, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели вознаграждения процесса (PRMs) и модели критиков, где для последних мы просим общие языковые модели критиковать каждое решение шаг за шагом. Мы делаем два основных наблюдения: (1) Существующие PRMs, как правило, не могут обобщать более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям критиков (т.е. запрошенным общим языковым моделям), так и нашей собранной PRM, которая явно донастраивается на наборе данных PRM800K. (2) Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способность к критике на уровне соперничающим с проприетарной моделью GPT-4o, несмотря на то, что она все еще отстает от специализированной модели рассуждений o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в области оценки процесса рассуждений, прокладывая путь к масштабируемому контролю языковых моделей.

2024-12-10oversight evaluation models

Раскрытие сложности памяти в агентах с подкрепляющим обучением: подход к классификации и оценке

Внедрение памяти в агентов имеет решающее значение для выполнения множества задач в области обучения с подкреплением (RL). В частности, память важна для задач, требующих использования прошлой информации, адаптации к новым условиям и повышения эффективности выборки. Однако термин «память» охватывает широкий спектр понятий, что, в сочетании с отсутствием единой методологии для проверки памяти агента, приводит к ошибочным суждениям о возможностях памяти агентов и препятствует объективному сравнению с другими агентами, наделенными памятью. Эта статья направлена на упрощение концепции памяти в RL, предоставляя практические и точные определения типов памяти агента, таких как долговременная и краткосрочная память, а также декларативная и процедурная память, вдохновленные когнитивной наукой. Используя эти определения, мы категоризируем различные классы памяти агентов, предлагаем надежную экспериментальную методологию для оценки возможностей памяти агентов RL и стандартизируем оценки. Более того, мы эмпирически демонстрируем важность соблюдения предложенной методологии при оценке различных типов памяти агентов, проводя эксперименты с разными агентами RL и последствиями ее нарушения.

2024-12-10agents methodology efficiency

Реформулирование взаимодействия в диалоге с использованием тонкой элементной модели

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека и машины, что привело к накоплению огромного количества журналов бесед и увеличению спроса на генерацию диалога. Цикл жизни разговора охватывает Прелюдию, Интерлокацию и Эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогом, отсутствуют эталоны, охватывающие всеобъемлющие элементы диалога, что затрудняет точное моделирование и систематическую оценку. Чтобы устранить этот разрыв, мы представляем инновационную исследовательскую задачу Моделирования Элементов Диалога, включая Осведомленность об Элементах и Взаимодействие Агентов Диалога, и предлагаем новый эталон DEMO, предназначенный для комплексного моделирования и оценки диалога. Вдохновленные обучением подражанию, мы также создаем агента, обладающего опытной способностью моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще демонстрируют значительный потенциал для улучшения, и наш агент DEMO имеет высокую производительность как в доменных, так и в недоменных задачах.

2024-12-09elements learning modeling

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

2024-12-06personalization architecture evaluation

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

2024-12-06performance evaluation density

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.

2024-12-05performance datasets training

U-MATH: Новый стандарт для оценки математических навыков в LLM

Текущая оценка математических навыков в LLM ограничена, поскольку существующие эталоны либо относительно малы, сосредоточены преимущественно на задачах начальной и средней школы, либо не имеют разнообразия по темам. Более того, включение визуальных элементов в задачи остается в значительной степени недостаточно исследованным. Чтобы устранить эти пробелы, мы представляем U-MATH, новый эталон из 1100 неопубликованных открытых университетских задач, извлеченных из учебных материалов. Он сбалансирован по шести основным предметам, при этом 20% составляют мультимодальные задачи. Учитывая открытый характер задач U-MATH, мы используем LLM для оценки правильности сгенерированных решений. С этой целью мы выпускаем mu-MATH, набор данных для оценки возможностей LLM в оценке решений. Оценка LLM общего назначения, специализированных по математике и мультимодальных подчеркивает сложности, представляемые U-MATH. Наши результаты показывают, что LLM достигают максимальной точности всего 63% по текстовым задачам и даже более низких 45% по визуальным задачам. Оценка решений представляет собой сложную задачу для LLM, при этом лучший LLM-судья имеет F1-оценку 80% по mu-MATH.

2024-12-05f1-score evaluation llm

Награды процесса без меток процесса: новые горизонты в обучении моделей вознаграждения

В отличие от моделей наград результатов (ORM), которые оценивают все ответы, модель награды процесса (PRM) оценивает аргументацию шаг за шагом, предоставляя более плотные и детализированные вознаграждения. Однако обучение PRM требует меток, аннотированных на каждом промежуточном этапе, что создает значительные проблемы как для ручного, так и для автоматического сбора данных. Эта статья нацелена на решение этой проблемы. Как теоретически, так и эмпирически мы показываем, что неявный PRM может быть получен без дополнительных затрат, просто обучая ORM на более дешевых метках уровня ответа. Единственное предположение заключается в параметризации результата награды как логарифма отношения правдоподобия моделей политики и эталона, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы реализуем наши неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наш неявный PRM превосходит сильную базовую линию на основе MCTS 'а-ля Math-Shepherd, используя менее 1/38 данных для обучения. Его производительность можно дополнительно улучшить с помощью голосования большинством. Мы также выяснили, что увеличение масштабов инструкций и ответов приносит выгоду нашему неявному PRM, при этом последнее дает больший прирост. В частности, мы обнаружили, что наш неявный PRM, когда он реализован с потерей кросс-энтропии (CE), более эффективен с точки зрения данных и может продолжать улучшать модели генерации, даже когда обучен только с одним ответом на инструкцию, что привносит крайний дефицит и дисбаланс данных. Кроме того, инструкции должны быть актуальны для последующих задач, в то время как разнообразие ответов не приносит выгоды. Удивительно, но обучение на дополнительных метках шагов Math-Shepherd не приносит дальнейших улучшений нашему неявному PRM, обученному только на данных результата. Мы надеемся, что наша работа побудит пересмотреть подходы к обучению PRM и поможет сделать обучение PRM более доступным.

2024-12-04evaluation model reward

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

2024-12-04ocr llms evaluation

AV-OdysseyBench: Понимают ли ваши мультимодальные LLM действительно аудиовизуальную информацию?

Недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включая визуальные и аудиомодальности. Хотя эти модели демонстрируют впечатляющие результаты в широком спектре аудиовизуальных приложений, наш предложенный DeafTest показывает, что MLLM часто испытывают трудности с простыми задачами, которые люди считают тривиальными: 1) определить, какой из двух звуков громче, и 2) определить, какой из двух звуков имеет более высокий тон. Мотивированные этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов. Чтобы обеспечить точную и объективную оценку ответов MLLM, мы структурировали вопросы в формате множественного выбора, что устраняет необходимость в человеческой оценке или оценке с помощью LLM. Мы оцениваем ряд закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезную информацию для будущего сбора данных и разработки моделей.

2024-12-04models multimodal benchmark

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

2024-12-04datasets evaluation models

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

2024-12-04evaluation control model

Оценка многоязычного понимания языка с учетом региональных знаний

Дискриминация производительности больших языковых моделей (LLM) между языками мешает их эффективному развертыванию во многих регионах, ограничивая потенциальную экономическую и социальную ценность инструментов генеративного ИИ во многих сообществах. Тем не менее, разработка функциональных LLM на многих языках (то есть, многоязычных LLM) сдерживается нехваткой ресурсов для оценки качеств на языках, отличных от английского. Более того, текущие практики в построении многоязычных контрольных испытаний часто переводят ресурсы на английский, игнорируя региональные и культурные знания об окружении, в котором будут использоваться многоязычные системы. В этой работе мы создаем набор оценочных данных из 197 243 пар вопросов и ответов из местных источников экзаменов, чтобы измерить возможности многоязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, является всеобъемлющим ориентированным на знания и рассуждение контрольным испытанием на 44 письменных языках, который оценивает многоязычные LLM по производительности в тех языковых средах, где они будут развернуты.

2024-12-03evaluation performance benchmark

PhysGame: Открытие нарушений физической здравомыслия в игровом видео

Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) продемонстрировали появление различных возможностей для мышления и интерпретации динамического визуального контента. Среди них игровые видео выделяются как уникальный источник данных, часто содержащий сбои, которые противоречат физическим здравым рассуждениям. Эта характеристика делает их эффективным эталоном для оценки недостаточно исследованной способности к пониманию физического здравого смысла в видео LLMs. В этой статье мы предлагаем PhysGame как новаторский эталон для оценки нарушений физического здравого смысла в игровых видео. PhysGame включает в себя 880 видео, связанных со сбоями в четырех основных областях (т.е. механика, кинематика, оптика и свойства материалов) и охватывающих 12 различных аспектов физического здравого смысла. Проведя обширную оценку различных современных видео LLMs, мы обнаружили, что производительность текущих открытых видео LLMs значительно отстает от производительности проприетарных аналогов. Чтобы устранить этот разрыв, мы создали набор данных для настройки инструкций PhysInstruct с 140 057 парами вопросов и ответов для содействия обучению физического здравого смысла. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются в зависимости от вводящих в заблуждение заголовков (т.е. взлом метаинформации), меньшего числа кадров (т.е. временной взей) и более низкого пространственного разрешения (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, усиленный физическими знаниями. Обширные эксперименты по как физически ориентированному эталону PhysGame, так и общим эталонам видео понимания демонстрируют передовую производительность PhysVLM.

2024-12-03evaluation dataset commonsense

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

2024-12-03benchmark evaluation model

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

2024-12-03evaluation benchmark autonomy

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

2024-12-03guidance sampling performance

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

2024-12-02performance training multimodal

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

2024-12-02pruning evaluation training

Автоматическая генерация изображений из текста: ChatGen

Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.

2024-11-29evaluation inputs models

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.

2024-11-29dataset vtoff fidelity

Интерливинг текстов и изображений: Новая эра генеративного ИИ

Многие реальные запросы пользователей (например, «Как сделать жареный рис с яйцом?») могут извлечь выгоду от систем, способных генерировать ответы с текстовыми шагами и сопутствующими изображениями, подобно кулинарным книгам. Модели, предназначенные для генерации чередующегося текста и изображений, сталкиваются с проблемами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную оценочную структуру для чередующейся генерации текста и изображений. ISG использует структуру графа сцены для захвата взаимосвязей между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях гранулярности: целостный, структурный, блочный и специфичный для изображения. Эта многоуровневая оценка позволяет провести тонкую оценку согласованности, последовательности и точности, а также предоставляет интерпретируемую обратную связь по вопросам и ответам. В дополнение к ISG мы представляем контрольный набор, ISG-Bench, охватывающий 1150 образцов в 8 категориях и 21 подкатегории. Этот контрольный набор данных включает сложные зависимости языка и зрения и золотые ответы для эффективной оценки моделей на задачах, ориентированных на зрительное восприятие, таких как перенос стиля, что является сложной областью для современных моделей. Используя ISG-Bench, мы демонстрируем, что недавние унифицированные модели языка и зрения показывают плохие результаты в генерации чередующегося контента. Хотя композиционные подходы, объединяющие отдельные языковые и изображенческие модели, демонстрируют улучшение на 111% по сравнению с унифицированными моделями на целостном уровне, их производительность остается субоптимальной как на блочном, так и на уровне изображений. Чтобы облегчить будущую работу, мы разработали ISG-Agent, базового агента, использующего конвейер "планировать-выполнить-совершенствовать" для вызова инструментов, достигая улучшения производительности на 122%.

2024-11-28consistency generation models

Мультимодальная генерация звуков для видео: концепция MultiFoley

Создание звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые существенно отличаются от реальных источников, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для звукового генерации под управлением видео, которая поддерживает мультимодальное управление с помощью текста, аудио и видео. Учитывая беззвучное видео и текстовый запрос, MultiFoley позволяет пользователям создавать чистые звуки (например, колеса скейтборда, вращающиеся без шума ветра) или более причудливые звуки (например, заставляя рычащий звук льва звучать как мяуканье кота). MultiFoley также позволяет пользователям выбирать аудио-ссылки из библиотек звуковых эффектов (SFX) или частичных видео для кондиционирования. Ключевым новшеством нашей модели является ее совместное обучение на интернет-видеодатасетах с низким качеством аудио и профессиональных записях SFX, что позволяет генерировать аудио высокого качества, полного диапазона (48kHz). Через автоматизированные оценки и исследования с участием человека мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при различных условных входах и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видеорезультатов: https://ificl.github.io/MultiFoley/

2024-11-28evaluation artificial synchronization

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

2024-11-27accuracy annotation models

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

2024-11-27perception agi mllm

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

2024-11-27misinformation cnn gan

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

2024-11-26uncertainty accuracy training

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

2024-11-26model vision segmentation

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

2024-11-26benchmark assessment ranking

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

2024-11-26evaluation benchmark model

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

2024-11-25optimization benchmark finetuning

BALROG: Оценка агентных возможностей LLM и VLM на играх

Крупные языковые модели (LLMs) и модели языка с визуальными элементами (VLMs) обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению; однако, они всё ещё испытывают трудности в эффективной работе в сложных, динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного рассуждения, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых у нас нет эффективных методик для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы представляем BALROG, новую эталонную платформу, разработанную для оценки агентских способностей LLMs и VLMs через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред для обучения с подкреплением с различным уровнем сложности, от задач, которые могут быть решены неспециалистами за секунды, до крайне сложных, которые могут потребовать лет для освоения (например, среда обучения NetHack). Мы разработали детальные метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLMs и VLMs. Наши выводы показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно отстают в решении более сложных задач. Особенно заметны серьезные недостатки в принятии решений на основе визуальной информации, поскольку модели показывают худшие результаты, когда предоставляются визуальные представления среды. Мы выпускаем BALROG как открытую и удобную для пользователя эталонную платформу, чтобы способствовать дальнейшим исследованиям и разработкам в сообществе агентских систем.

2024-11-25benchmark reasoning vision

ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео, которые не соответствуют текстовым запросам, особенно когда запросы описывают сложные сцены с множеством объектов и атрибутов. Чтобы решить эту проблему, мы представляем VideoRepair — новую модельно-независимую, не требующую обучения систему уточнения видео, которая автоматически выявляет тонкие несоответствия между текстом и видео и генерирует явную пространственную и текстовую обратную связь, позволяя модели T2V проводить целенаправленные, локализованные уточнения. VideoRepair состоит из четырех этапов: На (1) этапе оценки видео мы обнаруживаем несоответствия, генерируя детализированные оценочные вопросы и отвечая на них с помощью MLLM. На (2) этапе планирования уточнений мы идентифицируем правильно сгенерированные объекты и затем создаем локализованные запросы для уточнения других областей видео. Затем на (3) этапе разложения регионов мы сегментируем правильно сгенерированную область с помощью комбинированного модуля привязки. Мы регенерируем видео, корректируя несоответствующие регионы и сохраняя правильные области на (4) этапе локализованного уточнения. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench), VideoRepair значительно превосходит недавние базовые модели по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

2024-11-25alignment diffusion evaluation

Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать нарастающий объем литературы. Могут ли крупные языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с дополнительной функцией извлечения информации, которая отвечает на научные запросы, определяя релевантные отрывки из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный бенчмарк для поиска литературы в нескольких областях, включающий 2967 запросов, написанных экспертами, и 208 длинных ответов в области информатики, физики, нейронаук и биомедицины. На ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что это меньшая и открытая модель. В то время как GPT-4o фальсифицирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Система хранения данных, извлекатель и петля самокоррекции OpenScholar также улучшают стандартные модели LM: например, OpenScholar-GPT4o повышает правильность ответов GPT-4o на 12%. В оценках, проведенных экспертами, предпочтение OpenScholar-8B и OpenScholar-GPT4o было отдано в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы делаем открытыми все наши коды, модели, хранилище данных, данные и демонстрационную версию.

2024-11-22citation benchmark query

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

2024-11-21perception models generation

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

2024-11-21simulation evaluation video

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

2024-11-20efficiency transformer performance

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

2024-11-19robustness benchmark rag

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

2024-11-19evaluation nlp checkpoints

FitDiT: Прорыв в Виртуальной Примерке с Учетом Деталей и Размеров Одежды

Хотя технология виртуальной примерки на основе изображений достигла значительного прогресса, новые подходы все еще сталкиваются с вызовами при создании высококачественных и надежных изображений подгонки в разных сценариях. Эти методы часто испытывают трудности с такими аспектами, как сохранение текстуры и подгонка по размеру, что ограничивает их общую эффективность. Для решения этих проблем мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для высокоточной виртуальной примерки с использованием Diffusion Transformers (DiT), которые выделяют больше параметров и внимания на высокоразрешенные характеристики. Во-первых, для дальнейшего улучшения сохранения текстуры мы вводим экстрактор текстуры одежды, который включает в себя эволюцию приоритетов одежды для тонкой настройки характеристик одежды, что помогает лучше улавливать богатые детали, такие как полоски, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения деталей одежды с высокой частотой. Для решения проблемы подгонки по размеру мы используем стратегию расширенной-расслабленной маски, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю маскированную область при примерке через категории. Оснащенный вышеуказанным дизайном, FitDiT превосходит все базовые модели как по качественным, так и по количественным оценкам. Он превосходно справляется с созданием хорошо сидящей одежды с фотореалистичными и сложными деталями, при этом достигая конкурентоспособных времен вывода 4.57 секунды для одного изображения 1024x768 после оптимизации структуры DiT, превосходя существующие методы.

2024-11-19transformer masking frequency

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

2024-11-18model dataset nlp

CamemBERT 2.0: Эволюция французского языкового моделирования

Модели французского языка, такие как CamemBERT, были широко приняты в различных отраслях для задач обработки естественного языка (NLP), причем модели вроде CamemBERT имеют более 4 миллионов загрузок в месяц. Однако эти модели сталкиваются с вызовами из-за временного смещения концепций, когда устаревшие обучающие данные приводят к снижению производительности, особенно при встрече с новыми темами и терминологией. Этот вопрос подчеркивает необходимость обновления моделей, отражающих современные лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих проблем. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует задачу обнаружения замененных токенов (RTD) для улучшения понимания контекста, в то время как CamemBERTv2 построена на RoBERTa, которая использует задачу маскированного моделирования языка (MLM). Обе модели обучены на значительно большем и более актуальном наборе данных с удлиненной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общих задачах NLP, так и в специфических областях применения, таких как медицинские задачи, демонстрируя их универсальность и эффективность в различных случаях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны в открытом доступе на платформе Huggingface.

2024-11-14architecture tokenization nlp

GitChameleon: Разоблачение возможностей генерации версионного кода LLM

Быстрое развитие библиотек программного обеспечения представляет собой значительный вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки для автодополнения кода часто упускают из виду этот динамический аспект, а те, которые его учитывают, опираются на статические задачи предсказания кода без оценки на основе выполнения, предоставляя ограниченный взгляд на практическую применимость модели. Чтобы заполнить этот пробел, мы представляем **GitChameleon**, новый, вручную отобранный набор данных, состоящий из 116 задач автодополнения кода на Python, каждая из которых обусловлена конкретными версиями библиотек и сопровождается исполняемыми юнит-тестами. **GitChameleon** предназначен для тщательной оценки способности современных больших языковых моделей (LLM) генерировать код, специфичный для версии, который не только синтаксически правильный, но и функционально точен при выполнении. Наши комплексные оценки показывают, что передовые LLM сталкиваются с трудностями в решении этой задачи; например, GPT-4o достигает pass@10 всего 39.9% (43.7%, когда предоставляется обратная связь об ошибках), что подчеркивает сложность проблемы и ограничения текущих моделей. Предоставляя бенчмарк на основе выполнения, который подчеркивает динамическую природу библиотек кода, **GitChameleon** служит важным инструментом для продвижения разработки более адаптируемых и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, обусловленной версиями, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.

2024-11-12evaluation execution benchmark

Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."

2024-11-12tuning multimodal automation

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

2024-11-12training performance benchmark

Китайский SimpleQA: Оценка фактичности больших языковых моделей

Новые бенчмарки для оценки крупных языковых моделей (LLM) важны для соответствия быстрому развитию этих моделей. В данной работе мы представляем Chinese SimpleQA — первый всеобъемлющий китайский бенчмарк для оценки способности языковых моделей отвечать на краткие вопросы с точки зрения фактичности. Chinese SimpleQA обладает пятью ключевыми характеристиками: китайский язык, разнообразие, высокое качество, статичность и простота оценки. В частности, во-первых, мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим всесторонний процесс контроля качества для обеспечения высокого качества вопросов и ответов, где эталонные ответы являются статичными и не могут изменяться со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень короткие, а процесс оценки прост благодаря использованию API OpenAI. На основе Chinese SimpleQA мы проводим комплексную оценку фактической способности существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA поможет разработчикам лучше понимать способности их моделей в китайском контексте и способствовать развитию базовых моделей.

2024-11-12chinese diversity benchmark

Введение в IOPO: Оптимизация предпочтений входа-выхода для улучшения следования инструкциям в LLM

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям является ключевой, поскольку всё больше агентов и приложений используют LLM для разработки, где сложность инструкций быстро возрастает. Однако, с одной стороны, существует ограниченное количество данных для оценки сложных инструкций; с другой стороны, нет специализированных алгоритмов для улучшения способности следовать сложным инструкциям. В этой связи данная статья представляет TRACE, эталон для улучшения и оценки способности следовать сложным инструкциям, который включает 120 тысяч обучающих данных и 1 тысячу данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Input-Output Preference Optimization), который учитывает пары предпочтений входных и выходных данных, где LLM не только быстро адаптируются к предпочтениям ответов, но и тщательно исследуют предпочтения инструкций. Многочисленные эксперименты на данных внутри домена и за его пределами подтверждают эффективность IOPO, показывая улучшения на 8.15% и 2.18% для данных внутри домена и 6.29% и 3.13% для данных за пределами домена по сравнению с SFT и DPO соответственно.

2024-11-12benchmark instructions evaluation

OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор

Методы редактирования изображений на основе инструкций показали значительный потенциал, обучая модели диффузии на автоматически синтезированных или вручную аннотированных парах изображений для редактирования. Однако эти методы всё ещё далеки от практического применения в реальной жизни. Мы выделяем три основных вызова, которые способствуют этому разрыву. Во-первых, существующие модели обладают ограниченными навыками редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов, что связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одной низкой разрешенностью и фиксированным соотношением сторон, что ограничивает универсальность для обработки реальных сценариев использования. В данной статье мы представляем \omniedit, который является всесильным редактором, способным обрабатывать семь различных задач редактирования изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырёх частей: (1) \omniedit обучается с использованием супервизии от семи различных специализированных моделей, чтобы обеспечить охват задач. (2) Мы используем важностное выборочное обучение на основе оценок, предоставляемых крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) Мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования. (4) Мы предоставляем изображения с различными соотношениями сторон, чтобы наша модель могла обрабатывать любые изображения из реального мира. Мы создали тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для покрытия различных задач. Как автоматическая оценка, так и оценка людьми показывают, что \omniedit значительно превосходит все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/.

2024-11-12supervision editing aspect

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

2024-11-12editing evaluation attention

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

2024-11-08benchmark documents question

Как LLM могут следовать информационным нитям в огромных контекстах?

По мере увеличения контекстных ограничений крупных языковых моделей (LLMs), расширяется и диапазон возможных приложений и последующих функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям часто разнородных документов, содержащих в основном нерелевантную информацию. LLMs с длинным контекстом кажутся хорошо приспособленными для такого рода сложного поиска и анализа информации, который традиционно оказывался затратным и трудоемким. Однако, несмотря на быстрые достижения в разработке моделей с более длинным контекстом за последние годы, наше понимание того, насколько эффективно LLMs используют свой контекст, не успевает за этими изменениями. Для решения этой проблемы мы проводим серию экспериментов по извлечению информации, предназначенных для оценки возможностей 17 ведущих LLMs, таких как их способность следить за потоками информации через контекстное окно. Удивительно, но мы обнаружили, что многие модели обладают замечательной способностью к многопоточности: они способны одновременно следить за несколькими потоками информации без значительного снижения производительности. Тем не менее, для многих моделей мы находим, что фактический предел контекста значительно меньше, чем поддерживаемая длина контекста, причем точность снижается по мере увеличения контекстного окна. Наше исследование также подчеркивает важный момент, что количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно различающемуся количеству написанных символов. Мы публикуем наш код и данные экспериментов с длинным контекстом.

2024-11-08tokenization performance threads

AgentK v1.0: Автономный агент для решения задач в области науки о данных

Мы представляем Agent K v1.0, автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач в области науки о данных. Полностью автоматизированный, Agent K v1.0 управляет всем жизненным циклом данных, обучаясь на основе опыта. Он использует гибкую структурированную систему рассуждений, что позволяет ему динамически обрабатывать память в вложенной структуре, эффективно обучаясь на накопленном опыте для решения сложных задач рассуждений. Agent K v1.0 оптимизирует долгосрочную и краткосрочную память, выбирая, что хранить и извлекать, что помогает принимать решения на основе полученных наград из окружающей среды. Этот итеративный подход позволяет ему уточнять решения без необходимости дообучения или обратного распространения ошибки, достигая непрерывного улучшения через обучение на основе опыта. Мы оцениваем возможности нашего агента, используя соревнования на Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Agent K v1.0 систематически решает сложные и многомодальные задачи в области науки о данных, применяя байесовскую оптимизацию для настройки гиперпараметров и инжиниринга признаков. Наша новая оценочная система тщательно проверяет способности Agent K v1.0 к выполнению задач от начала до конца, начиная с URL-адреса соревнования на Kaggle и заканчивая отправкой решений. Результаты показывают, что Agent K v1.0 достиг успеха в 92,5% задач, охватывающих табличные данные, компьютерное зрение, обработку естественного языка и многомодальные области. При сравнении с 5856 участниками Kaggle путем расчета рейтинга Elo-MMR, Agent K v1.0 занимает место в верхних 38%, демонстрируя уровень навыков, сравнимый с пользователями экспертного уровня. Важно отметить, что его рейтинг Elo-MMR находится между первым и третьим квартилями результатов, достигнутых человеческими гроссмейстерами. Кроме того, наши результаты свидетельствуют о том, что Agent K v1.0 достиг уровня производительности, эквивалентного гроссмейстеру на Kaggle, с достижениями в виде 6 золотых, 3 серебряных и 7 бронзовых медалей, как определено системой прогресса Kaggle.

2024-11-07evaluation reasoning automation

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

2024-11-05models benchmark android

Введение

Мы представляем технологию "Мульти-экспертное Стимулирование", новое улучшение метода ExpertPrompting (Xu и соавт., 2023), разработанное для улучшения генерации больших языковых моделей (LLM). В частности, она направляет LLM на выполнение входной инструкции путем имитации нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в одной цепочке рассуждений через наши семь тщательно разработанных подзадач, основанных на Методе Номинальной Группы (Ven и Delbecq, 1974), хорошо зарекомендовавшей себя структуре принятия решений. Наши оценки показывают, что Мульти-экспертное Стимулирование значительно превосходит ExpertPrompting и сопоставимые базовые модели в улучшении правдивости, фактичности, информативности и полезности ответов, одновременно снижая токсичность и обидность. Оно также достигает рекордной правдивости, превосходя лучший базовый показатель на 8.69% с использованием ChatGPT. Мульти-экспертное Стимулирование является эффективным, объяснимым и легко адаптируемым к различным сценариям, исключая необходимость ручного создания стимулов.

2024-11-05evaluation llm subtasks

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

2024-11-05moe evaluation algorithms

Генерирование 3D и 4D сцен с Gen-X-D: От теории к практике

Недавние достижения в области генерации двумерных визуальных изображений были весьма успешными. Однако, создание 3D и 4D объектов остается сложной задачей в реальных приложениях из-за отсутствия масштабных 4D данных и эффективного дизайна моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D объектов, используя движения камеры и объектов, которые часто наблюдаются в повседневной жизни. Из-за недостатка реальных 4D данных в сообществе, мы сначала предлагаем пайплайн курирования данных для получения позиций камеры и интенсивности движения объектов из видео. На основе этого пайплайна мы представляем крупномасштабный набор данных реальных 4D сцен: CamVid-30K. Используя все 3D и 4D данные, мы разрабатываем нашу платформу, GenXD, которая позволяет создавать любую 3D или 4D сцену. Мы вводим мультивью-темпоральные модули, которые разделяют движения камеры и объектов, чтобы беспрепятственно учиться на обоих типах данных. Кроме того, GenXD использует маскированные латентные условия для поддержки различных условий визуализации. GenXD способен генерировать видео, которые следуют траектории камеры, а также согласованные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами генерации 3D и 4D объектов.

2024-11-05evaluation generation dataset

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.

2024-11-04metrics evaluation temporal

Персонализация крупных языковых моделей (LLM): Обзор

Персонализация крупных языковых моделей (LLM) в последнее время становится всё более важной благодаря широкому спектру применений. Несмотря на важность и недавние достижения, большинство существующих работ по персонализированным LLM сосредотачиваются либо полностью на (а) персонализированной генерации текста, либо на (б) использовании LLM для персонализированных приложений, таких как системы рекомендаций. В данной работе мы впервые мостим разрыв между этими двумя основными направлениями, вводя таксономию использования персонализированных LLM и суммируя ключевые различия и вызовы. Мы предлагаем формализацию основ персонализированных LLM, которая консолидирует и расширяет понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемых характеристик персонализированных LLM. Затем мы объединяем литературу по этим разнообразным областям и сценариям использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и применений персонализированных LLM. В заключение, мы выделяем вызовы и важные нерешённые проблемы, которые остаются актуальными. Объединяя и обозревая последние исследования с использованием предложенных таксономий, мы стремимся предоставить ясное руководство по существующей литературе и различным аспектам персонализации в LLM, поддерживая как исследователей, так и практиков.

2024-11-04formalization challenges granularity

Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM

Крупные языковые модели (LLM) преуспели в ответах на вопросы с несколькими этапами (M-QA) благодаря своим продвинутым способностям к рассуждению. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных QA, которые предоставляли бы детализированные структуры рассуждений. Чтобы восполнить этот пробел, мы представляем Набор данных для вопросно-ответной системы с графовыми структурами рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений, создавая графы рассуждений, где узлы представляют текстовые контексты, а связи обозначают логические потоки. Эти графы рассуждений различных структур позволяют детально оценить способности LLM к рассуждению на различных структурах рассуждений. Наш эмпирический анализ показывает, что LLM по-разному справляются с вопросами, имеющими различные структуры рассуждений. Это открытие способствует изучению текстовых структур в сравнении с семантикой.

2024-11-04structures semantic performance

Лицевая Анонимизация Упрощена: Инновационный Подход с Использованием Диффузионных Моделей

Современные методы анонимизации лиц часто зависят от оценки потери идентичности, рассчитываемой моделями распознавания лиц, что может быть неточным и ненадежным. Кроме того, многие методы требуют дополнительных данных, таких как ключевые точки лица и маски, для управления процессом синтеза. В отличие от них, наш подход использует модели диффузии, опираясь только на потерю реконструкции, что устраняет необходимость в использовании ключевых точек лица или масок, при этом все еще производя изображения с детализированными, мелкими деталями. Мы проверили наши результаты на двух общественных бенчмарках с помощью как количественных, так и качественных оценок. Наша модель достигает наилучших результатов в трех ключевых областях: анонимизация личности, сохранение атрибутов лица и качество изображения. Помимо основной функции анонимизации, наша модель также может выполнять задачи замены лица путем включения дополнительного изображения лица в качестве ввода, демонстрируя свою универсальность и потенциал для различных применений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple.

2024-11-04anonymization preservation swapping

Оценка потенциала ИИ в научных исследованиях: Бенчмарк AAAR-1.0

Многочисленные исследования оценивали эффективность систем ИИ, особенно крупных языковых моделей (LLM), в выполнении повседневных задач, таких как написание электронных писем, ответы на вопросы и создание креативного контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями при использовании LLM для своей работы, например, для мозгового штурма исследовательских идей, проектирования экспериментов и написания или рецензирования научных статей. В данном исследовании мы представляем AAAR-1.0, набор данных для оценки, разработанный для оценки производительности LLM в трех основных, требующих высокой квалификации, исследовательских задачах: (i) EquationInference — оценка корректности уравнений на основе контекстной информации в представленных статьях; (ii) ExperimentDesign — проектирование экспериментов для проверки исследовательских идей и решений; (iii) PaperWeakness — выявление слабых мест в представленных статьях; и (iv) REVIEWCRITIQUE — определение, какие сегменты в рецензиях людей недостаточны или нет. AAAR-1.0 отличается от предыдущих эталонных тестов двумя ключевыми способами: во-первых, он ориентирован на исследования, с задачами, требующими глубоких знаний в области; во-вторых, он ориентирован на исследователей, отражая основные виды деятельности, которыми исследователи занимаются ежедневно. Оценка как открытых, так и проприетарных LLM выявляет их потенциал, а также ограничения в проведении сложных исследовательских задач. Мы будем продолжать итерацию AAAR-1.0 до новых версий.

2024-11-01benchmark tasks performance

Повышение способности генерации длинных текстов с помощью LLM

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.

2024-11-01framework generation evaluation