Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "modeling"

Устойчивость к исключениям в коде: Применение LLM и многоагентной системы Seeker

В реальной разработке программного обеспечения неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и устойчивость кода. Механизмы обработки исключений требуют от разработчиков выявления, захвата и управления исключениями в соответствии с высокими стандартами, однако многие разработчики сталкиваются с трудностями в этих задачах, что приводит к хрупкому коду. Эта проблема особенно очевидна в проектах с открытым исходным кодом и влияет на общее качество программного обеспечения. Чтобы решить эту проблему, мы исследуем использование больших языковых моделей (LLM) для улучшения обработки исключений в коде. В результате обширного анализа мы выявили три основные проблемы: нечувствительное обнаружение хрупкого кода, неточный захват блока исключений и искаженное решение по обработке. Эти проблемы распространены среди реальных репозиториев, что указывает на то, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ на это мы предлагаем Seeker, многоагентную структуру, вдохновленную стратегиями экспертных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Датчик, Хищник, Ранжировщик и Обработчик, чтобы помочь LLM более эффективно выявлять, захватывать и разрешать исключения. Наша работа является первым систематическим исследованием о том, как использовать LLM для улучшения практик обработки исключений в реальных сценариях разработки, предоставляя ценные идеи для будущих улучшений надежности кода.

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

Prompt2Perturb: Текстово-ориентированные атакующие методы диффузионного типа для изображений ультразвука молочной железы

Глубокие нейронные сети (DNN) предлагают значительные перспективы для улучшения диагностики рака молочной железы в медицинской визуализации. Однако эти модели крайне подвержены атакам с противодействием – небольшим, незаметным изменениям, которые могут вводить классификаторы в заблуждение, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки полагаются на фиксированные нормы возмущений, которые не совпадают с человеческим восприятием. В contrast, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительных данных, когда эти модели недоступны, ограничивая практическое использование в условиях нехватки данных. Однако в медицинской визуализации это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на недавних достижениях в обучаемых подсказках, мы предлагаем Prompt2Perturb (P2P), новый метод атаки, основанный на языке, способный генерировать значимые примеры атак, движимые текстовыми инструкциями. На этапе обучения подсказкам наш подход использует обучаемые подсказки в текстовом энкодере для создания тонких, но значительных возмущений, которые остаются незаметными, направляя модель к целевым результатам. В отличие от текущих подходов, основанных на обучении подсказкам, наш P2P выделяется тем, что непосредственно обновляет текстовые встраивания, избегая необходимости повторной тренировки диффузионных моделей. Более того, мы используем вывод, что оптимизация только ранних обратных шагов диффузии увеличивает эффективность, при этом обеспечивая, чтобы созданные примеры противодействия включали тонкий шум, сохраняя при этом качество ультразвуковых изображений без введения заметных артефактов. Мы показываем, что наш метод превосходит передовые методы атаки по трем наборам данных ультразвука молочной железы по FID и LPIPS. Более того, созданные изображения выглядят более естественно и более эффективно по сравнению с существующими атаками с противодействием. Наш код будет доступен публике https://github.com/yasamin-med/P2P.

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (NFs) являются моделями, основанными на вероятности, для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в оценке плотности, так и в задачах генеративного моделирования, но в последние годы получили относительно мало внимания. В этой работе мы демонстрируем, что NFs более мощные, чем считалось ранее. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант автогрессивных потоков с маскированием (MAFs), основанный на Transformer: он состоит из стека автогрессивных трансформерных блоков на изображениях, чередующих направление автогрессии между слоями. TarFlow легко обучать от начала до конца и он способен напрямую моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества образцов: увеличение гауссовского шума во время обучения, посттренировочную процедуру денойзинга и эффективный метод управления как для условий класса, так и для безусловных настроек. Совместив это, TarFlow устанавливает новые современные результаты в оценке вероятности для изображений, опережая предыдущие лучшие методы на значительную величину, и генерирует образцы с качеством и разнообразием, сопоставимыми с диффузионными моделями, впервые с помощью самостоятельной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

Реформулирование взаимодействия в диалоге с использованием тонкой элементной модели

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека и машины, что привело к накоплению огромного количества журналов бесед и увеличению спроса на генерацию диалога. Цикл жизни разговора охватывает Прелюдию, Интерлокацию и Эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогом, отсутствуют эталоны, охватывающие всеобъемлющие элементы диалога, что затрудняет точное моделирование и систематическую оценку. Чтобы устранить этот разрыв, мы представляем инновационную исследовательскую задачу Моделирования Элементов Диалога, включая Осведомленность об Элементах и Взаимодействие Агентов Диалога, и предлагаем новый эталон DEMO, предназначенный для комплексного моделирования и оценки диалога. Вдохновленные обучением подражанию, мы также создаем агента, обладающего опытной способностью моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще демонстрируют значительный потенциал для улучшения, и наш агент DEMO имеет высокую производительность как в доменных, так и в недоменных задачах.

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

Код как Монитор: Осознание Ограничений в Визуальном Программировании для Реактивного и Проактивного Обнаружения Ошибок Роботов

Автоматическое обнаружение и предотвращение сбоев открытого множества имеют решающее значение в системах робототехники с замкнутым циклом. Недавние исследования часто сталкиваются с трудностями при одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых проактивно. С этой целью мы предлагаем Code-as-Monitor (CaM), новую парадигму, использующую модель визуального языка (VLM) как для реактивного, так и для проактивного обнаружения сбоев открытого множества. Основой нашего метода является формулирование обеих задач как единого набора задач удовлетворения пространственно-временных ограничений и использование кода, сгенерированного VLM, для их оценки в режиме реального времени. Для повышения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют связанные с ограничениями сущности или их части в компактные геометрические элементы. Этот подход предлагает большую универсальность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы как визуальные подсказки. Эксперименты показывают, что CaM достигает на 28,7% более высокой степени успеха и снижает время выполнения на 31,8% в условиях сильных помех по сравнению с базовыми показателями в трех симуляторах и в реальных условиях. Более того, CaM можно интегрировать с политиками управления открытым циклом для формирования замкнутых систем, что позволяет выполнять долгосрочные задачи в загроможденных сценах с динамическими условиями.

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

Существующие задачи навигации по целям экземпляров, основанные на естественном языке, предполагают, что пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и неоднозначными. Чтобы преодолеть этот разрыв, мы предлагаем новую задачу — Совместная навигация по экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, свободных от шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод — Взаимодействие агента и пользователя с Осознанием Неопределенности (AIUTA), использующий восприятие возможностей Моделей Визуального Языка (VLM) и возможности Больших Языковых Моделей (LLM). Сначала, после обнаружения объекта, модель Само-Вопросителя инициирует самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности уменьшает неаккуратное восприятие VLM. Затем модуль Триггер Взаимодействия решает, следует ли задать вопрос пользователю, продолжать или остановить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, эталон, поддерживающий как реальных, так и смоделированных людей. AIUTA демонстрирует конкурентоспособные результаты в навигации по экземплярам по сравнению с передовыми методами, проявляя большую гибкость в обработке пользовательских вводов.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

AlphaTablets: Новая генерация представления 3D-плоскостей для реконструкции из монокулярных видео

Мы представляем AlphaTablets, новаторское и общее представление 3D-плоскостей, которое характеризуется непрерывной 3D-поверхностью и точным delineation границ. Представляя 3D-плоскости в виде прямоугольников с альфа-каналами, AlphaTablets объединяют преимущества современных 2D и 3D представлений плоскостей, обеспечивая точное, последовательное и гибкое моделирование 3D-плоскостей. Мы выводим дифференцируемую растеризацию на основе AlphaTablets, чтобы эффективно отображать 3D-плоскости в изображения, и предлагаем новую схему снизу-вверх для 3D-планарной реконструкции из одноокулярных видео. Начав с 2D суперпикселей и геометрических подсказок от предварительно обученных моделей, мы инициализируем 3D-плоскости как AlphaTablets и оптимизируем их с помощью дифференцируемой рендеринга. Вводится эффективная схема слияния для облегчения роста и уточнения AlphaTablets. Через итеративную оптимизацию и слияние мы восстанавливаем полные и точные 3D-плоскости с твердыми поверхностями и четкими границами. Обширные эксперименты на наборе данных ScanNet демонстрируют наилучшие характеристики в 3D-планарной реконструкции, подчеркивая великий потенциал AlphaTablets как общего представления 3D-плоскости для различных приложений. Страница проекта доступна по адресу: https://hyzcluster.github.io/alphatablets

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Стремление к автоматизации операций сотовых сетей выросло с увеличением сложности этих систем. Несмотря на достижения, полная автономность пока недостижима из-за необходимости человеческого вмешательства для моделирования поведения сети и определения политик для выполнения целевых требований. Цифровые двойники сети (NDTs) показали перспективность в улучшении интеллекта сетей, но успешная реализация этой технологии ограничена архитектурами, специфичными для конкретных случаев использования, что ограничивает ее роль в развитии автономности сети. Необходим более способный сетевой интеллект или "мозг телекоммуникаций", чтобы обеспечить бесшовное, автономное управление сотовой сетью. Большие языковые модели (LLMs) появились как потенциальные инструменты для реализации этой концепции, но сталкиваются с проблемами в моделировании сети, особенно в области логического мышления и обработки разнообразных типов данных. Чтобы преодолеть эти пробелы, мы представляем Hermes — цепочку агентов LLM, которая использует "чертежи" для создания экземпляров NDT через структурированные и объяснимые логические шаги. Hermes позволяет автоматическое, надежное и точное моделирование сети для различных сценариев использования и конфигураций, что знаменует прогресс на пути к полностью автономным операциям сети.

Акустический объемный рендеринг для нейронных полей импульсных откликов

Реалистичный синтез звука, который точно отображает акустические явления, необходим для создания погружающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (IR), которая описывает, как звук распространяется в данной сцене по различным путям перед достижением позиции слушателя. В данной статье мы представляем Acoustic Volume Rendering (AVR), новый подход, который адаптирует методы объемного рендеринга для моделирования акустических импульсных характеристик. Хотя объемный рендеринг успешно использовался для моделирования полей излучения для изображений и нейронных представлений сцен, IR представляют уникальные вызовы как временные ряды сигналов. Чтобы справиться с этими вызовами, мы вводим рендеринг в частотной области и используем сферическую интеграцию для подгонки измерений IR. Наш метод создает поле импульсной характеристики, которое по своей природе кодирует принципы распространения волн и достигает передовых результатов в синтезе импульсных характеристик для новых положений. Эксперименты показывают, что AVR значительно превосходит текущие ведущие методы. Кроме того, мы разработали платформу акустического моделирования AcoustiX, которая обеспечивает более точные и реалистичные симуляции IR, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.

Авторегрессивные модели в компьютерном зрении: обзор

Авторегрессионное моделирование стало огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значимой областью внимания в компьютерном зрении, где они превосходно справляются с созданием высококачественного визуального контента. В NLP авторегрессионные модели обычно работают с субсловными токенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, например, уровень пикселей, уровень токенов или уровень масштаба, что отражает разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В этом обзоре мы всесторонне рассматриваем литературу по авторегрессионным моделям, применяемым в области зрения. Для улучшения читаемости для исследователей с разным научным багажом, мы начинаем с предварительного представления и моделирования последовательностей в зрении. Далее мы делим основные фреймворки визуальных авторегрессионных моделей на три общие подкатегории: модели на основе пикселей, токенов и масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, видео, 3D-объектов и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и 3D медицинский ИИ, с примерно 250 связанными ссылками. В заключение, мы подчеркиваем текущие вызовы для авторегрессионных моделей в зрении и предлагаем потенциальные направления для исследований. Мы также создали репозиторий на Github для организации бумаг, включенных в этот обзор, по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Ключевые кадры и маскирование Mamba для расширенного генерирования движений

Перевод на русский: Генерация движений человека является передовой областью исследований в генеративном компьютерном зрении с перспективными применениями в создании видео, разработке игр и манипуляциях робототехники. Недавно разработанная архитектура Mamba показывает многообещающие результаты в эффективном моделировании длинных и сложных последовательностей, однако остаются две значительные проблемы: Во-первых, непосредственное применение Mamba к расширенной генерации движений неэффективно, поскольку ограниченная емкость неявной памяти приводит к её затуханию. Во-вторых, Mamba испытывает трудности с мультимодальной интеграцией по сравнению с трансформерами и не соответствует текстовым запросам, часто путая направления (влево или вправо) или опуская части длинных текстовых запросов. Чтобы решить эти проблемы, наша статья предлагает три ключевых вклада: Во-первых, мы вводим KMM, новую архитектуру с моделированием маскирования ключевых кадров, разработанную для улучшения фокусировки Mamba на ключевых действиях в сегментах движения. Этот подход решает проблему затухания памяти и представляет собой пионерский метод в настройке стратегического маскирования на уровне кадров в системах моделирования последовательностей (SSM). Кроме того, мы разработали парадигму контрастивного обучения для решения проблемы мультимодальной интеграции в Mamba и улучшения согласованности движения с текстом. Наконец, мы провели обширные эксперименты на наборе данных go-to, BABEL, достигнув рекордных результатов с сокращением более чем на 57% в FID и на 70% параметров по сравнению с предыдущими методами, установившими стандарт качества. Смотрите сайт проекта: https://steve-zeyu-zhang.github.io/KMM

ReCapture: Генерация Видео с Новыми Траекториями Камеры для Пользовательских Видео

В последнее время прорывы в моделировании видео позволили контролировать траектории камеры в генерируемых видео. Однако эти методы нельзя напрямую применять к видео, предоставленным пользователями, которые не были сгенерированы видеомоделью. В данной статье мы представляем ReCapture, метод для создания новых видео с новыми траекториями камеры из одного видео, предоставленного пользователем. Наш метод позволяет нам перегенерировать эталонное видео, сохраняя все его существующие сценические движения, с совершенно разных углов и с кинематографическими движениями камеры. Примечательно, что с помощью нашего метода мы также можем правдоподобно воспроизвести части сцены, которые не были видны в эталонном видео. Наш метод работает следующим образом: (1) генерируется шумное опорное видео с новой траекторией камеры с использованием моделей многовидовой диффузии или рендеринга на основе глубины облака точек, а затем (2) опорное видео перегенерируется в чистое и временно последовательное видео с измененным углом обзора с помощью нашей предложенной техники тонкой настройки видео с маскированием.

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.