Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "generalization"

Обучение универсального управления позами гуманоидных роботов на основе видео

Масштабируемое обучение гуманоидных роботов является ключевым для их развертывания в реальных приложениях. Хотя традиционные подходы в основном полагаются на обучение с подкреплением или телеуправление для достижения полного контроля над телом, они часто ограничены разнообразием симулированных сред и высокими затратами на сбор демонстраций. Напротив, видеозаписи людей являются повсеместными и представляют собой неиспользуемый источник семантической и движенческой информации, который может значительно улучшить способности обобщения гуманоидных роботов. Эта статья представляет Humanoid-X, крупномасштабный набор данных, состоящий из более чем 20 миллионов поз гуманоидных роботов с соответствующими текстовыми описаниями движений, разработанный для того, чтобы использовать эти обильные данные. Humanoid-X создается через комплексный процесс: добыча данных из Интернета, генерация видеозаголовков, перенаправление движений людей на гуманоидных роботов и обучение политике для развертывания в реальном мире. С помощью Humanoid-X мы дополнительно обучаем большую гуманоидную модель, UH-1, которая принимает текстовые инструкции в качестве входных данных и выдает соответствующие действия для управления гуманоидным роботом. Обширные симулированные и реальные эксперименты подтверждают, что наш масштабируемый подход к обучению приводит к превосходному обобщению в текстовом управлении гуманоидом, что является значительным шагом к адаптивным гуманоидным роботам, готовым к реальному миру.

Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.

ByteLatentTransformer: Новая эра в архитектуре LLM

Мы представляем Byte Latent Transformer (BLT) — новую архитектуру LLM на уровне байтов, которая впервые достигает производительности LLM на основе токенизации в масштабе с существенными улучшениями в эффективности вывода и надежности. BLT кодирует байты в патчи динамического размера, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных мощностей и возможностей модели там, где необходимость в увеличении сложности данных требует этого. Мы представляем первое исследование о масштабировании моделей на уровне байтов с контролируемым количеством операций с плавающей запятой (FLOP) до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Эффективность как обучения, так и вывода улучшается благодаря динамическому выбору длинных патчей, когда данные предсказуемы, наряду с качественными улучшениями в способности к рассуждению и обобщению в условиях длинного хвоста. В целом, при фиксированных затратах на вывод, BLT демонстрирует значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патчей, так и размер модели.

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

Хотя крупные модели языка-видения-действия (VLA), предварительно обученные на обширных наборах данных роботов, предлагают многообещающие универсальные стратегии для обучения роботов, они всё ещё испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в выполнении сложных задач, таких как манипуляция. В данной работе мы представляем визуальное отслеживание подсказок, простой но эффективный подход для содействия пространственно-временной осведомленности моделей VLA при предсказании действий путём визуального кодирования траекторий состояния-действия. Мы разработали новую модель TraceVLA, дообучив OpenVLA на собственно собранном наборе данных из 150 000 траекторий манипуляции роботов с использованием визуального отслеживания подсказок. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовые характеристики, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза на задачах с реальными роботами, а также показывая надёжную генерализацию на различных воплощениях и сценариях. Для дальнейшей проверки эффективности и универсальности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предварительно обученную на Open-X-Embodiment и дообученную на нашем наборе данных, которая соперничает с базовой моделью 7B OpenVLA, значительно улучшая эффективность вывода.

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

Генеративная Дензфикация: Обучение для Дензификации Гауссианов для Высококачественной Генерализуемой 3D Реконструкции

Обобщенные модели гауссовских сетей с прямой связью достигли значительного прогресса в разреженной 3D-реконструкции, используя предварительные знания из больших многовидовых наборов данных. Однако эти модели часто испытывают трудности при представлении деталей с высоким разрешением из-за ограниченного количества гауссов. Хотя стратегия увеличения плотности, используемая в оптимизации 3D гауссовского сплошного распыления (3D-GS), может быть адаптирована для моделей с прямой связью, она может быть не идеально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Уплотнённость, эффективный и обобщаемый метод уплотнения гауссов, генерируемых моделями с прямой связью. В отличие от стратегии уплотнения 3D-GS, которая итеративно делит и клонирует сырые параметры гаусса, наш метод повышает разрешение представлений признаков из моделей с прямой связью и генерирует соответствующие тонкие гауссы за один проход вперед, используя встроенные предварительные знания для повышения обобщения. Экспериментальные результаты по задачам реконструкции как на уровне объектов, так и на уровне сцен демонстрируют, что наш метод превосходит современные подходы с сопоставимыми или меньшими размерами моделей, достигая заметных улучшений в представлении тонких деталей.

Усовершенствование навигации с помощью языка: Самообучающаяся система данных

Создание высококачественных данных для обучения надежных агентов с языковыми инструкциями является давним вызовом в области эмбодированной ИИ. В этой статье мы представляем Самоочищающуюся Данные Летучая Мышь (SRDF), которая генерирует высококачественные и масштабные пары навигационных инструкций и траекторий, итеративно уточняя пул данных через сотрудничество между двумя моделями: генератором инструкций и навигатором, без каких-либо аннотаций человека в процессе. В частности, SRDF начинает с использования базового генератора для создания начального пула данных для обучения базового навигатора, после чего обученный навигатор применяется для фильтрации пула данных. Это приводит к более точным данным для обучения лучшего генератора, который, в свою очередь, может производить высококачественные данные для обучения навигатора следующего этапа. Такая летучая мышь устанавливает процесс самоочищения данных, обеспечивая непрерывно улучшенный и очень эффективный набор данных для масштабного обучения навигации на основе языка. Наши эксперименты показывают, что после нескольких циклов работы летучей мыши навигатор повышает границу производительности с 70% до 78% SPL на классическом тестовом наборе R2R, впервые превышая производительность человека (76%). Между тем, этот процесс приводит к созданию превосходного генератора, о чем свидетельствует увеличение SPICE с 23.5 до 26.2, что лучше всех предыдущих методов генерации инструкций VLN. Наконец, мы демонстрируем масштабируемость нашего метода через увеличение разнообразия среды и инструкций, а также способность нашего предварительно обученного навигатора обобщать на различные downstream навигационные задачи, значительно превышая методы передового опыта во всех случаях.

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении

Поскольку языковые модели регулярно делают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждения становится все более значимой для их масштабируемого контроля. В данной статье мы представляем ProcessBench для оценки способности идентифицировать ошибочные шаги в математическом рассуждении. Он состоит из 3400 тестовых случаев, в основном сосредоточенных на задачах математики уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с аннотированным местом ошибки, отмеченным человеческими экспертами. Модели должны идентифицировать самый ранний шаг, содержащий ошибку, или сделать вывод о том, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели вознаграждения процесса (PRMs) и модели критиков, где для последних мы просим общие языковые модели критиковать каждое решение шаг за шагом. Мы делаем два основных наблюдения: (1) Существующие PRMs, как правило, не могут обобщать более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям критиков (т.е. запрошенным общим языковым моделям), так и нашей собранной PRM, которая явно донастраивается на наборе данных PRM800K. (2) Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способность к критике на уровне соперничающим с проприетарной моделью GPT-4o, несмотря на то, что она все еще отстает от специализированной модели рассуждений o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в области оценки процесса рассуждений, прокладывая путь к масштабируемому контролю языковых моделей.

A GUVIS: Объединённые агенты с чистым зрением для автономного взаимодействия с графическими интерфейсами

Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированную чисто визуальную платформу для автономных агентов GUI, которая работает на различных платформах. Наш подход использует наблюдения на основе изображений и связывает инструкции на естественном языке с визуальными элементами, а также применяет согласованное пространство действий для обеспечения обобщения между платформами. Чтобы преодолеть ограничения предыдущих работ, мы интегрируем явное планирование и рассуждения в модель, что увеличивает ее способность автономно ориентироваться и взаимодействовать со сложными цифровыми средами. Мы создаем масштабный набор данных о траекториях агентов GUI, включая многомодальное рассуждение и связывание, и применяем двухэтапный тренировочный конвейер, который сначала фокусируется на общем связывании GUI, а затем на планировании и рассуждении. Через всесторонние эксперименты мы демонстрируем, что Aguvis превосходит предыдущие передовые методы как в оффлайновых, так и в реальных онлайн-сценариях, включая, насколько нам известно, первого полностью автономного чисто визуального агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы открыли исходные коды всех наборов данных, моделей и рецептов обучения, чтобы содействовать будущим исследованиям по адресу https://aguvis-project.github.io/.

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

MIDI: Многоэкземплярное диффузионное моделирование для генерации 3D-сцен из одного изображения

Данная работа представляет MIDI, новую парадигму для композиционной генерации 3D-сцен из одного изображения. В отличие от существующих методов, основанных на техниках реконструкции или поиска, или недавних подходов, использующих многоступенчатую генерацию объектов по отдельности, MIDI расширяет предварительно обученные модели генерации изображений в 3D-объекты до моделей диффузии с несколькими экземплярами, позволяя одновременно генерировать несколько 3D-экземпляров с точными пространственными отношениями и высокой обобщаемостью. В своей основе MIDI включает новую механизм многоэкземплярного внимания, который эффективно улавливает взаимодействия между объектами и пространственную когерентность прямо в процессе генерации, без необходимости в сложных многоступенчатых процессах. Метод использует частичные изображения объектов и глобальный контекст сцены в качестве входных данных, непосредственно моделируя завершение объектов во время генерации 3D. Во время обучения мы эффективно контролируем взаимодействия между 3D-экземплярами, используя ограниченное количество данных на уровне сцены, при этом включая данные по одиночным объектам для регуляризации, сохраняя тем самым способность к обобщению, присущую предварительно обученным моделям. MIDI демонстрирует достижения на уровне современного искусства в генерации изображений в сцены, что подтверждается оценками на синтетических данных, реальных сценах и стилизованных изображениях сцен, созданных моделями диффузии текстов в изображения.

TinyFusion: Ускорение диффузионных трансформеров с помощью обрезки слоев

Диффузионные трансформаторы продемонстрировали выдающиеся способности в генерации изображений, но часто имеют чрезмерную параметризацию, что приводит к значительным накладным расходам на вывод в реальных приложениях. В этой работе мы представляем TinyFusion — метод обрезки глубины, предназначенный для удаления избыточных слоев из диффузионных трансформаторов с помощью обучения от начала до конца. Основной принцип нашего подхода заключается в создании обрезанной модели с высокой восстановимостью, что позволяет ей восстанавливать высокую производительность после дообучения. Для этого мы представляем дифференцируемую технику выборки, чтобы сделать обрезку обучаемой, в паре с совместно оптимизируемым параметром для имитации будущего дообучения. В то время как предыдущие работы сосредотачиваются на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после дообучения. Экспериментальные результаты показывают, что эта обучаемая парадигма предлагает значительные преимущества для обрезки слоев диффузионных трансформаторов, превосходя существующие методы, основанные на важности и ошибках. Кроме того, TinyFusion демонстрирует сильную генерализацию на различных архитектурах, таких как DiT, MAR и SiT. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформатор с затратами менее 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с индексом FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

Направления в детекции аудио-абьюза на разных языках с использованием методов обучения с малым количеством примеров

Обнаружение оскорбительного контента в Интернете, особенно в условиях ограниченных ресурсов и в аудиомодальности, остается недостаточно исследованным. Мы исследуем потенциал предобученных аудиопредставлений для обнаружения оскорбительного языка на языках с ограниченными ресурсами, в данном случае на индийских языках, используя метод обучения с несколькими образцами (Few Shot Learning, FSL). Используя мощные представления из таких моделей, как Wav2Vec и Whisper, мы изучаем кросс-языковое обнаружение оскорблений, используя набор данных ADIMA с FSL. Наш подход интегрирует эти представления в рамки обучения с метаобучением, независимого от модели (Model-Agnostic Meta-Learning, MAML), для классификации оскорбительного языка на 10 языках. Мы проводим эксперименты с различными размерами образцов (50-200), оценивая влияние ограниченных данных на производительность. Кроме того, было проведено исследование визуализации признаков, чтобы лучше понять поведение модели. Это исследование подчеркивает способность предобученных моделей к обобщению в сценариях с ограниченными ресурсами и предоставляет ценные идеи для обнаружения оскорбительного языка в многозначных контекстах.

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

Make-It-Animatable: Эффективная структура для создания анимационных 3D персонажей

3D-персонажи являются основой современных творческих индустрий, однако создание их для анимации часто требует значительных усилий в таких задачах, как создание ригов и скиннинг. Существующие автоматические инструменты для риггинга сталкиваются с несколькими ограничениями, включая необходимость ручной аннотации, жесткие топологии скелетов и ограниченную обобщаемость для различных форм и поз. Альтернативный подход заключается в том, чтобы генерировать анимируемые аватары, заранее прикрепленные к ригованной шаблонной сетке. Однако этот метод часто не обладает гибкостью и обычно ограничивается реалистичными человеческими формами. Чтобы решить эти проблемы, мы представляем Make-It-Animatable, новый метод на основе данных, который позволяет подготовить любую 3D-гуманоидную модель к анимации персонажей менее чем за одну секунду, независимо от её формы и поз. Наша унифицированная архитектура генерирует высококачественные весовые коэффициенты смешивания, кости и преобразования поз. Включив автоэнкодер формы на основе частиц, наш подход поддерживает различные 3D-репрезентации, включая сетки и 3D-гассовые пятна. Кроме того, мы используем представление от грубого к тонкому и стратегию моделирования с учетом структуры, чтобы обеспечить как точность, так и надежность, даже для персонажей с нестандартными структурами скелетов. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашей архитектуры. По сравнению с существующими методами наш подход демонстрирует значительные улучшения как в качестве, так и в скорости.

Адаптивное слепое универсальное восстановление изображений (ABAIR)

Слепые универсальные модели восстановления изображений направлены на восстановление высококачественного изображения из входных данных, испорченных неизвестными искажениями. Однако эти модели требуют, чтобы все возможные типы заболеваний были определены на этапе обучения, при этом демонстрируя ограниченную обобщаемость для невидимых ухудшений, что ограничивает их практическое применение в сложных случаях. В данной статье мы предлагаем простую, но эффективную адаптивную слепую универсальную модель восстановления (ABAIR), которая может устранять несколько деградаций, хорошо обобщается на невидимые деградации и эффективно включает новые деградации путем обучения небольшой доли параметров. Во-первых, мы обучаем нашу базовую модель на большом наборе данных естественных изображений с несколькими синтетическими деградациями, дополненными сегментационной головой для оценки типов деградации на пиксельном уровне, в результате чего получается мощный каркас, способный обобщаться на широкий спектр деградаций. Во-вторых, мы адаптируем нашу базовую модель к различным задачам восстановления изображений, используя независимые адаптеры с низким рангом. В-третьих, мы обучаемся адаптивно комбинировать адаптеры для универсальных изображений через гибкого и легковесного оценщика деградации. Наша модель мощна в обработке специфических искажений и гибка в адаптации к сложным задачам; она не только значительно превосходит достижения наивысшего уровня в настройках восстановления изображений с пятью и тремя задачами, но и демонстрирует улучшенную обобщаемость для невидимых деградаций, а также составных искажений.

Путь к репликации O1: Простая дистилляция и её последствия

Эта статья представляет собой критический анализ текущих подходов к репликации возможностей модели O1 от OpenAI, с особым акцентом на широко распространённое, но часто не раскрываемое использование техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к репликации O1, данное исследование показывает, как простая дистилляция с использованием API O1, в сочетании с контролируемой настройкой, может достигать превосходных результатов в сложных задачах математического рассуждения. Путём обширных экспериментов мы показываем, что базовая модель, настроенная на десятки тысяч образцов, дистиллированных из O1, превосходит предварительную версию O1 на Американском пригласительном математическом экзамене (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за рамки математического рассуждения и исследует возможности обобщения моделей, дистиллированных из O1, на разнообразные задачи: галлюцинации, безопасность и вопросы и ответы в открытом домене. Отметим, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого QA и стали значительно менее подвержены подхалимству после настройки. Мы намеренно публикуем эти результаты для содействия прозрачности в исследованиях ИИ и для оспаривания текущей тенденции к скрытию технических утверждений в этой области. Наша работа включает: (1) детальное техническое изложение процесса дистилляции и его эффективности, (2) всеобъемлющую рамку бенчмарков для оценки и категоризации попыток репликации O1 на основе их технической прозрачности и воспроизводимости, (3) критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции. Наш анализ завершается важным горьким уроком: хотя стремление к созданию более способных систем ИИ важно, развитие исследователей, опирающихся на мышление с первых принципов, является первостепенным.

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."

Развитие моделей открытого рассуждения: Взгляд на Marco-o1

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждения (LRM). Используя этот импульс, Marco-o1 не только сосредотачивается на дисциплинах с стандартными ответами, таких как математика, физика и программирование — которые хорошо подходят для обучения с подкреплением (RL) — но также уделяет больше внимания решениям открытого типа. Мы ставим перед собой задачу ответить на вопрос: "Может ли модель o1 эффективно обобщаться на более широкие области, где отсутствуют четкие стандарты и награды трудно количественно оценить?" Marco-o1 работает на основе тонкой настройки цепочки рассуждений (CoT), поиска по методу Монте-Карло (MCTS), механизмов рефлексии и инновационных стратегий рассуждений — все это оптимизировано для решения сложных задач в реальном мире.

SAMURAI: Адаптация модели Segment Anything для нулевого отслеживания с учетом движения

Модель Segment Anything Model 2 (SAM 2) показала высокие результаты в задачах сегментации объектов, но сталкивается с трудностями в визуальном отслеживании объектов, особенно при управлении сценам, где много быстро движущихся или самозатмевающих объектов. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для настройки характеристик изображения на следующий кадр, что приводит к распространению ошибок в видео. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Включая временные движения с предложенным механизмом выбора памяти, чувствительным к движению, SAMURAI эффективно предсказывает движение объектов и уточняет выбор масок, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность без обучения на различных тестовых наборах данных, демонстрируя свою способность к обобщению без настройки. В оценках SAMURAI показывает значительные улучшения в показателях успеха и точности по сравнению с существующими трекерами, с увеличением AUC на 7,1% на LaSOT_{ext} и на 3,5% AO на GOT-10k. Кроме того, он показывает конкурентоспособные результаты по сравнению с полностью контролируемыми методами на LaSOT, подчеркивая его надежность в сложных сценариях отслеживания и потенциал для реальных приложений в динамических средах. Код и результаты доступны по адресу https://github.com/yangchris11/samurai.

Динамическая манипуляция в руке мягким роботом: SWIFT

Динамическая манипуляция в руке остается сложной задачей для мягких робототехнических систем, которые показали преимущества в безопасных и податливых взаимодействиях, но испытывают трудности с высокоскоростными динамическими задачами. В данной работе мы представляем SWIFT, систему для обучения динамическим задачам с использованием мягкой и податливой роботизированной руки. В отличие от предыдущих работ, которые полагались на симуляцию, квазистатические действия и точные модели объектов, предлагаемая система учится вращать ручку методом проб и ошибок, используя только реальные данные без необходимости явного знания физических характеристик ручки. С помощью самопомеченных испытаний, отобранных из реального мира, система определяет набор параметров захвата и вращения ручки, которые позволяют мягкой руке вращать ручку надежно и эффективно. После 130 отобранных действий на объект, SWIFT достигает 100% успеха для трех ручек с разным весом и распределением веса, демонстрируя способность системы к обобщению и устойчивость к изменениям свойств объекта. Результаты подчеркивают потенциал мягких робототехнических эффекторов для выполнения динамических задач, включая быструю манипуляцию в руке. Мы также демонстрируем, что SWIFT может обобщать на вращение предметов различной формы и веса, таких как кисть и отвертка, с успехом в 10/10 и 5/10 соответственно. Видео, данные и код доступны по адресу https://soft-spin.github.io.

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.

HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

Мы предлагаем эффективный метод внедрения адаптеров в базовые модели преобразования текста в изображение, который позволяет выполнять сложные задачи на последующих этапах, сохраняя при этом способность базовой модели к обобщению. Основная идея данного метода заключается в оптимизации механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемов и показал значительные результаты. Мы надеемся, что эта работа может дать представление о задачах, выполняемых после обучения, для крупных моделей преобразования текста в изображение. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он представляет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем соответствующий код (https://songkey.github.io/hellomeme).

Как язык помогает обучению воплощенных агентов: исследование информативности и разнообразия

В реальных сценариях желательно, чтобы воплощенные агенты имели способность использовать человеческий язык для получения явного или неявного знания для выполнения задач обучения. Несмотря на недавние успехи, большинство предыдущих подходов используют простые низкоуровневые инструкции в качестве языкового ввода, что может не отражать естественное человеческое общение. Неясно, как интегрировать богатое использование языка для облегчения обучения задачам. Для решения этого вопроса в данной статье исследуются различные типы языковых вводов, способствующих обучению воплощенных агентов с использованием методов подкрепления (RL). Более конкретно, мы рассматриваем, как различные уровни информативности языка (т.е., обратная связь по прошлому поведению и будущие указания) и разнообразие (т.е., вариативность языковых выражений) влияют на обучение и вывод агента. Наши эмпирические результаты, основанные на четырех RL-эталонах, показывают, что агенты, обученные с разнообразной и информативной языковой обратной связью, могут достичь улучшенной обобщаемости и быстрой адаптации к новым задачам. Эти выводы подчеркивают ключевую роль использования языка в обучении воплощенных агентов новым задачам в открытом мире. Сайт проекта: https://github.com/sled-group/Teachable_RL