Ай Дайджест

Усиление способностей к мультимодальному рассуждению с помощью оптимизации смешанных предпочтений

Существующие открытые мультимодальные крупные языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и настройку под надзором. Однако эти модели страдают от сдвигов распределения, что ограничивает их мультимодальное рассуждение, особенно в задачах цепочки рассуждений (Chain-of-Thought, CoT). Чтобы решить эту проблему, мы вводим процесс оптимизации предпочтений (PO), чтобы улучшить мультимодальные способности к рассуждению MLLM. В частности: 1. **На стороне данных** мы разработали автоматизированный конвейер для создания предпочтительных данных, чтобы создать MMPR - высококачественный, крупномасштабный набор данных мультимодальных предпочтений для рассуждений. 2. **На стороне модели** мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанной Оптимизацией Предпочтений (Mixed Preference Optimization, MPO), который улучшает мультимодальную производительность CoT. Наш подход демонстрирует улучшение результатов на нескольких бенчмарках, особенно в задачах мультимодального рассуждения. В частности, наша модель, InternVL2-8B-MPO, достигла точности 67.0 на MathVista, опережая InternVL2-8B на 8.7 пунктов и показывая результаты, сравнимые с InternVL2-76B, которая в 10 раз больше. Мы надеемся, что это исследование вдохновит на дальнейшие улучшения в области MLLM. Код, данные и модель будут доступны для общественности.

mllm optimization reasoning

UltraMem: Сверхразреженная память для языковых моделей

Широко признано, что производительность моделей Transformer экспоненциально связана с количеством их параметров и вычислительной сложностью. Хотя подходы, такие как "Смесь экспертов" (MoE), разделяют количество параметров и вычислительную сложность, они все еще сталкиваются с проблемами при инференции из-за высоких затрат на доступ к памяти. Эта работа представляет UltraMem, который включает крупномасштабный, ультраразреженный слой памяти для решения этих ограничений. Наш подход значительно снижает задержку инференции, при этом сохраняя производительность модели. Мы также исследуем законы масштабирования этой новой архитектуры, демонстрируя, что она не только обладает благоприятными свойствами масштабирования, но и превосходит традиционные модели. В наших экспериментах мы обучаем сети с количеством слотов памяти до 20 миллионов. Результаты показывают, что наш метод достигает рекордной скорости инференции и производительности модели в рамках заданного вычислительного бюджета.

transformer parameters complexity

Терпение - ключ к рассуждениям больших языковых моделей

Недавние достижения в области крупных языковых моделей, особенно с использованием метода цепочки мыслей (CoT), продемонстрировали значительное улучшение в решении сложных задач. Однако существующие модели либо склонны жертвовать детализированным рассуждением ради краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для освоения сложных способностей к рассуждению, что ограничивает их потенциал в решении комплексных задач. Чтобы преодолеть этот разрыв, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, который поощряет модели к более терпеливому стилю рассуждений без необходимости введения новых знаний или навыков. Для реализации подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений в качестве положительных примеров и простые ответы — как отрицательные примеры, тем самым обучая модель отдавать предпочтение тщательности в своих ответах. Наши результаты показывают увеличение производительности до 6.7% на GSM8k при обучении только на легковесном наборе данных.

models reasoning training

Гимба: Архитектура с гибридными головами для малых языковых моделей

Мы представляем Hymba, семейство небольших языковых моделей, использующих гибридную параллельную архитектуру голов, которая интегрирует механизмы внимания трансформеров с моделями состояния пространства (SSM) для повышения эффективности. Головы внимания обеспечивают высокую разрешающую способность воспоминаний, в то время как головы SSM позволяют эффективно обобщать контекст. Кроме того, мы вводим обучаемые мета-токены, которые добавляются в начале запросов, хранят критическую информацию и снижают "вынужденное внимание", связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения обмена ключ-значение (KV) между слоями и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В процессе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и наблюдали значительные преимущества нашей предложенной архитектуры. В частности, Hymba достигает рекордных результатов среди малых языковых моделей: наша модель Hymba-1.5B-Base превосходит все публичные модели с менее чем 2 миллиардами параметров по производительности и даже превосходит Llama-3.2-3B с на 1.32% выше средней точностью, уменьшением размера кэша в 11.67 раз и увеличением пропускной способности в 3.49 раза.

architecture transformer efficiency

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

scalability diffusion training

Открытие новых горизонтов в научной литературе с помощью OpenScholar

Научный прогресс зависит от способности исследователей синтезировать нарастающий объем литературы. Могут ли крупные языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с дополнительной функцией извлечения информации, которая отвечает на научные запросы, определяя релевантные отрывки из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный бенчмарк для поиска литературы в нескольких областях, включающий 2967 запросов, написанных экспертами, и 208 длинных ответов в области информатики, физики, нейронаук и биомедицины. На ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что это меньшая и открытая модель. В то время как GPT-4o фальсифицирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Система хранения данных, извлекатель и петля самокоррекции OpenScholar также улучшают стандартные модели LM: например, OpenScholar-GPT4o повышает правильность ответов GPT-4o на 12%. В оценках, проведенных экспертами, предпочтение OpenScholar-8B и OpenScholar-GPT4o было отдано в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы делаем открытыми все наши коды, модели, хранилище данных, данные и демонстрационную версию.

retrieval benchmark query

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

reinforcement mdp policy

Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Галлюцинации в крупных языковых моделях являются распространенной проблемой, однако механизмы, лежащие в основе того, будут ли модели галлюцинировать, плохо поняты, что ограничивает нашу способность решать эту проблему. Используя разреженные автокодировщики как инструмент интерпретации, мы обнаруживаем, что ключевой частью этих механизмов является распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, узнает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это предполагает, что модели могут обладать самоосведомленностью: внутренними представлениями о собственных возможностях. Эти направления имеют причинно-следственное значение: они способны направлять модель на отказ отвечать на вопросы о известных сущностях или на галлюцинирование атрибутов неизвестных сущностей, когда она в противном случае отказалась бы. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинно-следственное влияние на поведение модели чата, отказываясь отвечать, что предполагает, что дообучение чата переиспользовало этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание последующих голов, которые обычно перемещают атрибуты сущностей к последнему токену.

hallucination autoencoder entity

Объединённый поиск: Создание доступных адаптаций LLM для языков с ограниченными ресурсами

Большие языковые модели (LLMs) показывают низкие результаты на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает данные из Common Crawl с использованием минимальных вычислительных ресурсов, что позволяет получить монолингвальные наборы данных значительно большего объема, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для дообучения многоязычных LLM с помощью эффективных адаптерных методов (QLoRA) значительно улучшает производительность на языках с ограниченными ресурсами, при этом минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение перплексии языковой модели и увеличение баллов при использовании few-shot подходов. Наша работа и выпущенный исходный код предоставляют доступный способ улучшения LLM для языков с ограниченными ресурсами с использованием потребительского оборудования. Исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.

language data adapter

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

transformer detection prompt

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

diffusion 3d view

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

pre-training encoder multimodal

Развитие моделей открытого рассуждения: Взгляд на Marco-o1

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждения (LRM). Используя этот импульс, Marco-o1 не только сосредотачивается на дисциплинах с стандартными ответами, таких как математика, физика и программирование — которые хорошо подходят для обучения с подкреплением (RL) — но также уделяет больше внимания решениям открытого типа. Мы ставим перед собой задачу ответить на вопрос: "Может ли модель o1 эффективно обобщаться на более широкие области, где отсутствуют четкие стандарты и награды трудно количественно оценить?" Marco-o1 работает на основе тонкой настройки цепочки рассуждений (CoT), поиска по методу Монте-Карло (MCTS), механизмов рефлексии и инновационных стратегий рассуждений — все это оптимизировано для решения сложных задач в реальном мире.

models reasoning learning

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

diffusion transformer flow

Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность благодаря более глубокому рассуждению, эволюционируя от подсказок в цепочке мыслей к решениям уровня продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, данные высокого качества для долгосрочного рассуждения и оптимизированные обучающие конвейеры все еще недостаточно исследованы в задачах, связанных с обработкой изображений и языка. В этой статье мы представляем Insight-V, раннюю попытку 1) масштабно создавать длинные и надежные данные для рассуждения для сложных мультимодальных задач и 2) эффективный обучающий конвейер для улучшения способностей рассуждения многоязыковых больших языковых моделей (MLLM). В частности, для создания длинных и структурированных данных рассуждения без человеческого труда мы разработали двухэтапный конвейер с прогрессивной стратегией, чтобы генерировать достаточно длинные и разнообразные пути рассуждений, а также метод многоуровневой оценки для обеспечения качества данных. Мы заметили, что непосредственное обучение MLLM с такими длинными и сложными данными рассуждения не приводит к идеальным способностям рассуждения. Для решения этой проблемы мы разработали мультиагентную систему, состоящую из агента рассуждения, специализирующегося на выполнении долгосрочных рассуждений, и агента сводки, обученного оценивать и обобщать результаты рассуждений. Мы также внедрили итерационный алгоритм DPO для повышения стабильности и качества генерации рассуждений агентом. На основе популярной модели LLaVA-NeXT и нашего более мощного базового MLLM мы демонстрируем значительное улучшение производительности по сложным мультимодальным бенчмаркам, требующим визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также может легко поддерживать или улучшать производительность в задачах, ориентированных на восприятие мультимодальных данных.

reasoning training data