Ай Дайджест

Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.

agent planning model

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

benchmark hallucination classifier

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

diffusion generative conditioning

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

quantization attention matmul

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) показала высокие результаты в задачах сегментации объектов, но сталкивается с трудностями в визуальном отслеживании объектов, особенно при управлении сценам, где много быстро движущихся или самозатмевающих объектов. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для настройки характеристик изображения на следующий кадр, что приводит к распространению ошибок в видео. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Включая временные движения с предложенным механизмом выбора памяти, чувствительным к движению, SAMURAI эффективно предсказывает движение объектов и уточняет выбор масок, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность без обучения на различных тестовых наборах данных, демонстрируя свою способность к обобщению без настройки. В оценках SAMURAI показывает значительные улучшения в показателях успеха и точности по сравнению с существующими трекерами, с увеличением AUC на 7,1% на LaSOT_{ext} и на 3,5% AO на GOT-10k. Кроме того, он показывает конкурентоспособные результаты по сравнению с полностью контролируемыми методами на LaSOT, подчеркивая его надежность в сложных сценариях отслеживания и потенциал для реальных приложений в динамических средах. Код и результаты доступны по адресу https://github.com/yangchris11/samurai.

segmentation tracking memory

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

diffusion generation style

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

scaling prediction distribution

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

encoder decoder fusion

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

benchmark evaluation model

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

embedding training attention

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

benchmark evaluation metrics