Ай Дайджест

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

agents android benchmark

Ограниченные Диффузионные Имплицитные Модели (CDIM)

Эта статья описывает эффективный алгоритм для решения шумных линейных обратных задач с использованием предобученных моделей диффузии. Расширяя парадигму имплицитных моделей диффузии с деноизацией (DDIM), мы предлагаем ограниченные имплицитные модели диффузии (CDIM), которые изменяют обновления диффузии для выполнения ограничения на конечный результат. Для задач без шума CDIM точно удовлетворяет ограничениям; в шумном случае мы обобщаем CDIM так, чтобы он удовлетворял точному ограничению на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченным DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая суперразрешение, деноизацию, заполнение, удаление размытия и реконструкцию облака точек 3D.

algorithm diffusion constraints

Введение

Мы представляем технологию "Мульти-экспертное Стимулирование", новое улучшение метода ExpertPrompting (Xu и соавт., 2023), разработанное для улучшения генерации больших языковых моделей (LLM). В частности, она направляет LLM на выполнение входной инструкции путем имитации нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в одной цепочке рассуждений через наши семь тщательно разработанных подзадач, основанных на Методе Номинальной Группы (Ven и Delbecq, 1974), хорошо зарекомендовавшей себя структуре принятия решений. Наши оценки показывают, что Мульти-экспертное Стимулирование значительно превосходит ExpertPrompting и сопоставимые базовые модели в улучшении правдивости, фактичности, информативности и полезности ответов, одновременно снижая токсичность и обидность. Оно также достигает рекордной правдивости, превосходя лучший базовый показатель на 8.69% с использованием ChatGPT. Мульти-экспертное Стимулирование является эффективным, объяснимым и легко адаптируемым к различным сценариям, исключая необходимость ручного создания стимулов.

prompting llm experts

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

autoencoder interpretability retrieval

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.

representation latent transfer

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.

vision language models

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

moe llms training

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.

lmms retrieval adaptation

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

embedding benchmark dialect

Динамические Агенты на Основе LLM: Преодоление Ограничений Предопределённых Действий

Существующие системы агентов LLM обычно выбирают действия из фиксированного и предопределённого набора на каждом шаге. Хотя такой подход эффективен в закрытых, узко специализированных средах, мы утверждаем, что он создаёт две основные проблемы при развертывании агентов LLM в реальных сценариях: (1) выбор из фиксированного набора действий значительно ограничивает возможности планирования и действий агентов LLM, и (2) этот подход требует значительных человеческих усилий для перечисления и реализации всех возможных действий, что становится нецелесообразным в сложных средах с огромным количеством потенциальных действий. В этой работе мы предлагаем фреймворк для агента LLM, который позволяет динамически создавать и комбинировать действия в режиме онлайн. В этом фреймворке агент взаимодействует с окружением, генерируя и выполняя программы, написанные на универсальном языке программирования на каждом шаге. Кроме того, созданные действия накапливаются со временем для повторного использования в будущем. Наши обширные эксперименты на бенчмарке GAIA показывают, что этот фреймворк обеспечивает значительно большую гибкость и превосходит предыдущие методы. Особенно стоит отметить, что он позволяет агенту LLM восстанавливаться в ситуациях, когда в предопределённом наборе нет соответствующих действий или когда существующие действия не работают из-за непредвиденных случаев. На момент написания статьи мы занимаем первое место в публичном рейтинге GAIA. Наш код можно найти по ссылке https://github.com/adobe-research/dynasaur.

actions agent environment

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

reinforcement optimization divergence

Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В данной статье мы представляем модель Hunyuan-Large, которая на данный момент является крупнейшей открытой моделью, основанной на Transformer, с использованием технологии смешения экспертов. Она включает в себя 389 миллиардов параметров и 52 миллиарда параметров активации, способную обрабатывать до 256 тысяч токенов. Мы провели тщательную оценку превосходной производительности Hunyuan-Large по различным тестам, включая понимание и генерацию языка, логическое рассуждение, решение математических задач, программирование, задачи с длинным контекстом и агрегированные задачи, где она превосходит модель LLama3.1-70B и показывает сопоставимую производительность с значительно большей моделью LLama3.1-405B. Ключевые особенности Hunyuan-Large включают использование больших объемов синтетических данных, превышающих данные в предыдущих исследованиях, стратегию маршрутизации смешанных экспертов, технику сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для экспертов. Кроме того, мы исследовали законы масштабирования и графики скорости обучения для моделей со смешением экспертов, предоставляя ценные инсайты и руководства для будущего развития и оптимизации моделей. Код и контрольные точки модели Hunyuan-Large выпущены для содействия будущим инновациям и применениям. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large

transformer parameters benchmarks

Генерирование 3D и 4D сцен с Gen-X-D: От теории к практике

Недавние достижения в области генерации двумерных визуальных изображений были весьма успешными. Однако, создание 3D и 4D объектов остается сложной задачей в реальных приложениях из-за отсутствия масштабных 4D данных и эффективного дизайна моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D объектов, используя движения камеры и объектов, которые часто наблюдаются в повседневной жизни. Из-за недостатка реальных 4D данных в сообществе, мы сначала предлагаем пайплайн курирования данных для получения позиций камеры и интенсивности движения объектов из видео. На основе этого пайплайна мы представляем крупномасштабный набор данных реальных 4D сцен: CamVid-30K. Используя все 3D и 4D данные, мы разрабатываем нашу платформу, GenXD, которая позволяет создавать любую 3D или 4D сцену. Мы вводим мультивью-темпоральные модули, которые разделяют движения камеры и объектов, чтобы беспрепятственно учиться на обоих типах данных. Кроме того, GenXD использует маскированные латентные условия для поддержки различных условий визуализации. GenXD способен генерировать видео, которые следуют траектории камеры, а также согласованные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами генерации 3D и 4D объектов.

generation dataset pipeline

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

llm pooling compression

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.

sparsity activation transformer

MVPaint: Синхронизированная мульти-вью генерация для текстурирования 3D объектов

Текстурирование является ключевым этапом в рабочем процессе создания 3D-активов, который улучшает визуальное восприятие и разнообразие этих активов. Несмотря на последние достижения в области генерации текстур из текста (T2T), существующие методы часто дают неудовлетворительные результаты, в основном из-за локальных несоответствий, несогласованности по нескольким видам и их сильной зависимости от результатов разворачивания UV. Чтобы решить эти проблемы, мы предлагаем новую структуру генерации и доработки 3D текстурирования под названием MVPaint, которая способна создавать высококачественные, бесшовные текстуры, уделяя особое внимание согласованности многовидовой проекции. MVPaint в основном состоит из трех ключевых модулей: 1) **Синхронизированная генерация многовидовых изображений (SMG)**. На основе модели 3D-сетки MVPaint сначала одновременно генерирует изображения с нескольких видов, используя модель SMG, что приводит к грубым результатам текстурирования с непокрашенными частями из-за отсутствующих наблюдений. 2) **Пространственно-ориентированная 3D-ретушь (S3I)**. Для обеспечения полного текстурирования 3D, мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее не наблюдаемых областей. 3) **Уточнение UV (UVR)**. Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в UV-пространстве, который сначала выполняет сверхразрешение в UV-пространстве, за которым следует алгоритм сглаживания швов, ориентированный на пространство, для исправления пространственных несоответствий в текстурировании, вызванных разворачиванием UV. Кроме того, мы создаем две оценочные бенчмарки T2T: бенчмарк Objaverse T2T и бенчмарк GSO T2T, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие методы наилучших практик. В частности, MVPaint может генерировать высококачественные текстуры с минимальными проблемами Janus и значительно улучшенной согласованностью между видами.

texture generation refinement

WEB RL: Обучение веб-агентов с использованием LLM через самоэволюционирующее онлайн-обучение с подкреплением

Крупные языковые модели (LLMs) показали выдающиеся возможности в качестве автономных агентов, особенно в задачах, связанных с вебом. Однако существующие веб-агенты на базе LLM сильно зависят от дорогих проприетарных API LLM, в то время как открытые LLM не обладают необходимыми способностями к принятию решений. В данной статье представляется WebRL, самоэволюционирующая онлайн-куррикулумная платформа обучения с подкреплением, разработанная для тренировки высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три ключевых проблемы в разработке веб-агентов на базе LLM, включая нехватку тренировочных задач, разреженные сигналы обратной связи и сдвиг распределения политик в онлайн-обучении. В частности, WebRL включает в себя 1) самоэволюционирующийся куррикулум, который генерирует новые задачи из неудачных попыток, 2) надежную модель вознаграждения, контролируемую результатами (ORM), и 3) адаптивные стратегии обучения с подкреплением для обеспечения постоянного прогресса. Мы применили WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в квалифицированных веб-агентов. На WebArena-Lite, WebRL повысил процент успешных выполнений задач для Llama-3.1-8B с 4.8% до 42.4%, а для GLM-4-9B - с 6.1% до 43%. Эти открытые модели значительно превосходят показатели GPT-4-Turbo (17.6%) и GPT-4o (13.9%) и превосходят предыдущих лидеров среди веб-агентов, обученных на открытых LLM (AutoWebGLM, 18.2%). Наши результаты демонстрируют эффективность WebRL в сближении открытых и проприетарных LLM-веб агентов, открывая путь к более доступным и мощным системам автономного взаимодействия с вебом.

reinforcement learning agents

Торговля точностью и производительностью в квантовании LLM: Обзор и анализ

Несмотря на популярность квантизации крупных языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромиссов между точностью и производительностью, связанных с различными форматами квантизации. Мы представляем всестороннее эмпирическое исследование точности квантизированных моделей, оценивая популярные форматы квантизации (FP8, INT8, INT4) на академических тестах и реальных задачах для всей семейства моделей Llama-3.1. Кроме того, наше исследование анализирует различия в тексте, генерируемом квантизированными моделями, по сравнению с их не сжатыми аналогами. Помимо тестов, мы также представляем несколько улучшений в квантизации, которые позволили нам достичь результатов по восстановлению точности на уровне лучших в своем классе. Наше исследование, включающее более 500,000 индивидуальных оценок, дает несколько ключевых выводов: (1) квантизация весов и активаций в формате FP8 (W8A8-FP) является без потерь на всех масштабах моделей, (2) квантизация весов и активаций в формате INT8 (W8A8-INT), при правильной настройке, приводит к неожиданно низкому снижению точности на 1-3%, и (3) квантизация только весов в формате INT4 (W4A16-INT) является конкурентоспособной по сравнению с 8-битной целочисленной квантизацией весов и активаций. Для ответа на вопрос о «лучшем» формате для конкретной среды развертывания, мы проводим анализ производительности вывода с использованием популярной открытой платформы vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает наилучшую стоимостную эффективность для синхронных развертываний, а также для асинхронного развертывания на GPU среднего уровня. В то же время, форматы W8A8 превосходят в асинхронном развертывании с «непрерывной пакетной обработкой» средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантизированных LLM в различных масштабах и требованиях к производительности.

quantization accuracy inference

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

generalization diffusion scaling

AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Современное программное обеспечение для визуальных эффектов (VFX) позволяет талантливым художникам создавать изображения практически чего угодно. Однако процесс создания остается трудоемким, сложным и в основном недоступным для повседневных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Внимательно интегрируя нейронное моделирование сцен, генерацию кода на основе LLM и физическое моделирование, AutoVFX способен предоставлять физически обоснованные, фотореалистичные эффекты редактирования, которые можно контролировать напрямую с помощью инструкций на естественном языке. Мы провели обширные эксперименты для проверки эффективности AutoVFX на широком спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX превосходит все конкурирующие методы с большим отрывом в качестве генерации, соответствии инструкциям, универсальности редактирования и физической правдоподобности.

vfx autovfx neural

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

diffusion prompt transformer

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

video diffusion transformer