Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

ByteLatentTransformer: Новая эра в архитектуре LLM

Мы представляем Byte Latent Transformer (BLT) — новую архитектуру LLM на уровне байтов, которая впервые достигает производительности LLM на основе токенизации в масштабе с существенными улучшениями в эффективности вывода и надежности. BLT кодирует байты в патчи динамического размера, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных мощностей и возможностей модели там, где необходимость в увеличении сложности данных требует этого. Мы представляем первое исследование о масштабировании моделей на уровне байтов с контролируемым количеством операций с плавающей запятой (FLOP) до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Эффективность как обучения, так и вывода улучшается благодаря динамическому выбору длинных патчей, когда данные предсказуемы, наряду с качественными улучшениями в способности к рассуждению и обобщению в условиях длинного хвоста. В целом, при фиксированных затратах на вывод, BLT демонстрирует значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патчей, так и размер модели.

SplineGS: Новая эра синтеза новизны в динамических сценах

Синтезирование новых видов из монокулярных видео в естественной обстановке представляет собой сложную задачу из-за динамики сцены и отсутствия многоугловых подсказок. Для решения этой проблемы мы предлагаем SplineGS, свободную от COLMAP динамическую 3D Gaussian Splatting (3DGS) архитектуру для высококачественной реконструкции и быстрой отрисовки из монокулярных видео. В ее основе лежит новый метод Motion-Adaptive Spline (MAS), который представляет собой непрерывные динамические 3D Gaussian траектории с использованием кубических сплайнов Эрмита с малым числом контрольных точек. Для MAS мы вводим метод Motion-Adaptive Control points Pruning (MACP), чтобы смоделировать деформацию каждой динамической 3D Gaussian при различных движениях, постепенно уменьшая количество контрольных точек, сохраняя при этом целостность динамического моделирования. Кроме того, мы представляем стратегию совместной оптимизации для оценки параметров камеры и 3D Gaussian атрибутов, используя фотометрию и геометрическую согласованность. Это устраняет необходимость в предварительной обработке Structure-from-Motion и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы по качеству синтеза новых видов для динамических сцен из монокулярных видео, достигая скорости отрисовки в тысячи раз быстрее.

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

TidyBot++: Открытый мобильный манипулятор для обучения роботов

Использование обещаний недавних достижений в области имитационного обучения для мобильной манипуляции потребует сбора большого количества демонстраций, проведенных людьми. В данной статье предлагается открытый дизайн недорогого, надежного и гибкого мобильного манипулятора, который может поддерживать произвольные руки, что позволяет выполнять широкий спектр задач мобильной манипуляции в реальных условиях дома. Ключевым моментом нашего дизайна является использование электродвигателей на колесах, которые позволяют мобильной базе быть полностью гономной, управляя всеми плоскими степенями свободы независимо и одновременно. Эта функция делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, которые создают сложные и трудоемкие движения в негонимических базах. Мы оснастили нашего робота интуитивно понятным интерфейсом телеприсутствия с помощью мобильного телефона, чтобы упростить сбор данных для имитационного обучения. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные политики могут успешно выполнять различные распространенные задачи мобильной манипуляции в домах.

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

Меньшие языковые модели лучше эволюционеров инструкций

Настройка инструкций широко используется для раскрытия полного потенциала больших языковых моделей. Примечательно, что сложные и разнообразные инструкции имеют значительное значение, так как они могут эффективно согласовывать модели с различными задачами. Тем не менее, текущие подходы к созданию масштабных инструкций преимущественно отдают предпочтение мощным моделям, таким как GPT-4 или тем, у которых более 70 миллиардов параметров, основываясь на эмпирическом предположении о том, что такие большие языковые модели (LLM) по своей сути обладают улучшенными возможностями. В данном исследовании мы ставим под сомнение это распространенное предположение и проводим глубокое исследование потенциала меньших языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что меньшие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дальнейший анализ демонстрирует, что SLM обладают более широким пространством выходов во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также отмечаем, что существующие метрики не акцентируют внимание на воздействии инструкций. Таким образом, мы предлагаем IFD с учетом сложности инструкции (IC-IFD), который вводит сложность инструкции в оригинальную оценку IFD для более точной оценки эффективности данных инструкций. Наш исходный код доступен по адресу: https://github.com/HypherX/Evolution-Analysis

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

Защита от подражания с использованием персонализированных диффузионных моделей

Недавние достижения в моделях диффузии революционизируют генерацию изображений, но представляют собой риски неправильного использования, такие как воспроизведение художественных произведений или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности с балансировкой эффективности защиты, невидимости и задержки, что ограничивает практическое применение. Мы представляем предварительное обучение с помехами для снижения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации ухудшения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает надежность и невидимость. Эксперименты показывают сопоставимую эффективность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по адресу https://webtoon.github.io/impasto

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

SPAR: Улучшение следования инструкциям в больших языковых моделях

Следование инструкциям является фундаментальной способностью языковых моделей, требующей от модели распознавания даже самых тонких требований в инструкциях и точного отражения их в своем выводе. Такая способность хорошо подходит и часто оптимизируется методом обучения предпочтений. Однако существующие методы часто напрямую выбирают несколько независимых ответов от модели при создании пар предпочтений. Такая практика может вводить вариации в содержании, не имеющие отношения к тому, точно ли выполнена инструкция (например, разные выражения одной и той же семантики), мешая цели обучения моделей распознавать ключевые различия, ведущие к лучшему следованию инструкциям. В связи с этим мы представляем SPaR, структуру самоигры, интегрирующую деревоискающую саморефинацию, чтобы обеспечить действительные и сопоставимые пары предпочтений, свободные от отвлекающих факторов. Играя против самой себя, LLM использует стратегию деревоискаания, чтобы уточнить свои предыдущие ответы в отношении инструкции, минимизируя ненужные вариации. Наши эксперименты показывают, что модель LLaMA3-8B, обученная за три итерации под руководством SPaR, превосходит GPT-4-Turbo на эталонном испытании IFEval, не теряя общих способностей. Более того, SPaR демонстрирует многообещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4-9B и LLaMA3-70B. Мы также определяем, как масштабирование вывода в деревоискании повлияет на производительность модели. Наш код и данные доступны для общественности по адресу https://github.com/thu-coai/SPaR.

Простая трансформация для защиты данных в вертикальном федеративном обучении

Вертикальное федеративное обучение (VFL) нацелено на обеспечение совместного обучения глубоких моделей, сохраняя при этом защиту конфиденциальности. Тем не менее, процедура VFL все еще имеет компоненты, уязвимые к атакам со стороны недоброжелательных участников. В нашей работе мы рассматриваем атаки на восстановление признаков, общую угрозу, нацеленную на компрометацию входных данных. Мы теоретически утверждаем, что атаки на восстановление признаков не могут быть успешными без знания предварительного распределения данных. В результате мы демонстрируем, что даже простые трансформации архитектуры модели могут существенно повлиять на защиту входных данных во время VFL. Подтверждая эти выводы с помощью экспериментальных результатов, мы показываем, что модели на основе MLP устойчивы к современным атакам на восстановление признаков.

ColorFlow: Революция в цветизации изображений последовательностей

Автоматическая цветизация черно-белых последовательностей изображений с сохранением идентичности персонажей и объектов (ID) является сложной задачей с значительным спросом на рынке, например, для цветизации мультфильмов или комиксов. Несмотря на достижения в визуальной цветизации с использованием крупных генеративных моделей, таких как диффузионные модели, продолжают существовать проблемы с управляемостью и согласованностью идентичности, что делает существующие решения непригодными для промышленного применения. Чтобы решить эту задачу, мы предлагаем ColorFlow — трехэтапную диффузионную основу, адаптированную для цветизации последовательностей изображений в промышленном применении. В отличие от существующих методов, которые требуют дообучения на уровне ID или явной извлечения встраиваний ID, мы предлагаем новую надежную и обобщаемую цветизационную трубопроводную систему с использованием дополненной выборки для цветизации изображений с соответствующими цветовыми ссылками. Наша трубопроводная система также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности, а другая для цветизации, используя сильные стороны диффузионных моделей. Мы используем механизм самовнимания в диффузионных моделях для мощного обучения в контексте и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, комплексный эталон для цветизации на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательной цветизации изображений и потенциально принося пользу художественной индустрии. Мы публикуем наши коды и модели на нашей странице проекта: https://zhuang2002.github.io/ColorFlow/.

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

RetroLLM: Объединение поиска и генерации для больших языковых моделей

Большие языковые модели (LLM) демонстрируют замечательные генеративные способности, но часто страдают от галлюцинаций. Генерация с поддержкой поиска (RAG) предлагает эффективное решение, включая внешний контекст, но существующие методы сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных извлекательных модулей, избыточные токены ввода из извлеченных текстовых фрагментов и отсутствие совместной оптимизации извлечения и генерации. Чтобы решить эти проблемы, мы предлагаем RetroLLM — единые архитектуры, объединяющие извлечение и генерацию в один последовательный процесс, позволяя LLM непосредственно генерировать детализированные доказательства из корпуса с использованием ограниченного декодирования. Более того, чтобы смягчить ложную обрезку в процессе генерации ограниченных доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют подсказки, ограниченные корпусом, чтобы определить подмножество релевантных документов перед генерацией доказательств, снижая нерелевантное декодирование; и (2) стратегию ограниченного декодирования, ориентированную на будущее, которая учитывает релевантность будущих последовательностей для повышения точности доказательств. Обширные эксперименты на пяти наборах данных открытых доменов QA демонстрируют превосходные результаты RetroLLM как в задачах в области, так и за ее пределами. Код доступен по адресу https://github.com/sunnynexus/RetroLLM.

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

Wonderland: Навигация по 3D-сценам из одного изображения

Эта работа касается сложного вопроса: как мы можем эффективно создавать высококачественные, масштабные 3D-сцены из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость в данных с нескольких точек зрения, продолжительная оптимизация для каждой сцены, низкое визуальное качество фонов и искаженные реконструкции в не видимых областях. Мы предлагаем новую схему, чтобы преодолеть эти ограничения. В частности, мы представляем масштабную модель реконструкции, которая использует латенты из модели диффузии видео для предсказания 3D-Гауссовских разбросов для сцен в прямом направлении. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с нескольких точек зрения, сохраняя при этом 3D-последовательность. Мы обучаем модель 3D-реконструкции работать в пространстве видео-латентов с помощью прогрессивной стратегии обучения, что позволяет эффективно генерировать высококачественные, масштабные и универсальные 3D-сцены. Обширные оценки на различных наборах данных демонстрируют, что наша модель значительно превосходит существующие методы генерации 3D-сцен с одного вида, особенно с изображениями из другой области. Впервые мы демонстрируем, что модель 3D-реконструкции может быть эффективно построена на основе латентного пространства модели диффузии для реализации эффективной генерации 3D-сцен.

SepLLM: Ускорение больших языковых моделей за счет сжатия сегментов в разделители

Большие Языковые Модели (LLMs) показали исключительные результаты в различных задачах обработки естественного языка. Однако их значительные размеры создают серьезные проблемы, особенно в отношении вычислительных затрат и скорости вывода, из-за их квадратичной сложности. В этой работе мы идентифицировали ключевую закономерность: некоторые, на первый взгляд, бессмысленные специальные токены (т.е. разделители) непропорционально влияют на оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение предполагает, что информация сегментов между этими токенами-разделителями может быть эффективно сжата в сами токены-разделители без значительных потерь информации. Руководствуясь этой идеей, мы представляем SepLLM, многофункциональную платформу, которая ускоряет вывод за счет компрессии этих сегментов и устранения избыточных токенов. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в условиях без обучения, обучения с нуля и послевыучивания демонстрируют эффективность SepLLM. Примечательно, что, используя архитектуру Llama-3-8B, SepLLM достигает более чем 50% сокращения в кэше KV на контрольном устройстве GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в режимах потоковой передачи SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, одновременно поддерживая стабильные возможности языкового моделирования.

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

M AX I NFO RL: Усовершенствование Исследования в Обучении с Подкреплением через Максимизацию Информационного Прибыли

Алгоритмы обучения с подкреплением (RL) стремятся сбалансировать использование текущей наилучшей стратегии с изучением новых вариантов, которые могут привести к более высоким вознаграждениям. Наиболее распространенные алгоритмы RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективно сбалансировать задачи и внутренние вознаграждения сложно и часто зависит от конкретной задачи. В этой работе мы представляем рамки MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL нацеливает исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как информационный прирост о базовой задаче. В сочетании с исследованием Больцмана этот подход естественным образом уравновешивает максимизацию функции ценности с максимизацией энтропии по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает подпорогового сожаления в упрощенной обстановке многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без политики для непрерывных пространств состояния-действия, что приводит к новым алгоритмам, которые достигают превосходной производительности в сложных задачах исследования и сложных сценариях, таких как задачи визуального управления.