Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

SmolTulu: Оптимизация Обучения Языковых Моделей через Соотношение Темпа Обучения и Размеров Пакетов

Мы представляем SmolTulu-1.7b-Instruct, упомянутый в этом отчете как SmolTulu-DPO-1130, языковую модель, откалиброванную на инструкции, которая адаптирует постобучение Tulu 3 от AllenAI для улучшения базовой модели Huggingface SmolLM2-1.7B. Путем комплексного эмпирического анализа с использованием модели на 135M параметров мы демонстрируем, что связь между скоростью обучения и размером батча значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи на рассуждение, такие как ARC и GSM8K, выигрывают от более высоких соотношений скорости обучения к размеру батча, в то время как задачи распознавания шаблонов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими соотношениями. Эти идеи легли в основу разработки SmolTulu, которая достигает передовой производительности среди моделей с менее чем 2B параметров в отслеживании инструкций, набирая 67.7% на IFEval (Delta11%), и математическом рассуждении с 51.6% на GSM8K (Delta3.4%), с альтернативной версией, набирающей 57.1% на ARC (Delta5.4%). Мы публикуем нашу модель, рецепты обучения и абляционные исследования для содействия дальнейшим исследованиям в области эффективного согласования моделей, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и крупными языковыми моделями.

ObjectMate: Новый подход к вставке объектов и генерации изображений

В этой статье представлен метод без настройки для вставки объектов и генерации на основе предмета. Задача заключается в том, чтобы создать объект, имея несколько ракурсов, в сцене, заданной либо изображением, либо текстом. Существующие методы испытывают трудности с полным выполнением сложных целей задачи: (i) бесшовное внедрение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что для достижения этих целей требуется крупномасштабное обучение, но сбор достаточных данных вручную просто слишком дорог. Ключевое наблюдение в этой статье заключается в том, что многие массово производимые объекты повторяются на нескольких изображениях больших разметок данных, в разных сценах, позах и условиях освещения. Мы используем это наблюдение для создания массового обучения, извлекая наборы разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение, чтобы сопоставить описания объекта и сцены с составным изображением. Мы сравниваем наш метод, ObjectMate, с современными методами вставки объектов и генерации на основе предмета, используя одну или несколько ссылок. Эмпирически, ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с несколькими ссылками, ObjectMate не требует медленной настройки во время тестирования.

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

GR,EA,T,ER: Как градиенты и reasoning улучшают производительность малых языковых моделей

Эффективность больших языковых моделей (LLMs) тесно связана с разработкой подсказок, что делает оптимизацию подсказок важной для повышения их производительности по широкому спектру задач. Многие существующие подходы к автоматизации проектирования подсказок полагаются исключительно на текстовую обратную связь, уточняя подсказки исключительно на основе ошибок вывода, выявленных большими, дорогостоящими вычислительными LLMs. К сожалению, более мелкие модели сталкиваются с трудностями при генерации качественной обратной связи, что приводит к полной зависимости от суждений крупных LLM. Более того, эти методы не используют более прямую и тонкую информацию, такую как градиенты, из-за работы исключительно в текстовом пространстве. С этой целью мы представляем GReaTer, новую технику оптимизации подсказок, которая непосредственно учитывает информацию о градиентах для специфического для задач рассуждения. Используя градиенты потерь задач, GReaTer позволяет самостоятельную оптимизацию подсказок для моделей языка с открытым исходным кодом и легковесных без необходимости в дорогостоящих закрытых LLM. Это позволяет производить высокопроизводительную оптимизацию подсказок без зависимости от массивных LLM, уменьшая разрыв между более мелкими моделями и сложным рассуждением, часто необходимым для доработки подсказок. Обширные оценки по различным задачам рассуждения, включая BBH, GSM8k и FOLIO, показывают, что GReaTer последовательно превосходит предыдущие передовые методы оптимизации подсказок, даже те, которые полагаются на мощные LLM. Дополнительно, подсказки, оптимизированные с помощью GReaTer, часто демонстрируют лучшую передаваемость и, в некоторых случаях, увеличивают производительность задач до уровней, сравнимых с или превышающих те, которые достигаются более крупными языковыми моделями, подчеркивая эффективность оптимизации подсказок, направленной на градиенты в процессе рассуждения. Код GReaTer доступен по адресу https://github.com/psunlpgroup/GreaTer.

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

Prompt2Perturb: Текстово-ориентированные атакующие методы диффузионного типа для изображений ультразвука молочной железы

Глубокие нейронные сети (DNN) предлагают значительные перспективы для улучшения диагностики рака молочной железы в медицинской визуализации. Однако эти модели крайне подвержены атакам с противодействием – небольшим, незаметным изменениям, которые могут вводить классификаторы в заблуждение, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки полагаются на фиксированные нормы возмущений, которые не совпадают с человеческим восприятием. В contrast, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительных данных, когда эти модели недоступны, ограничивая практическое использование в условиях нехватки данных. Однако в медицинской визуализации это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на недавних достижениях в обучаемых подсказках, мы предлагаем Prompt2Perturb (P2P), новый метод атаки, основанный на языке, способный генерировать значимые примеры атак, движимые текстовыми инструкциями. На этапе обучения подсказкам наш подход использует обучаемые подсказки в текстовом энкодере для создания тонких, но значительных возмущений, которые остаются незаметными, направляя модель к целевым результатам. В отличие от текущих подходов, основанных на обучении подсказкам, наш P2P выделяется тем, что непосредственно обновляет текстовые встраивания, избегая необходимости повторной тренировки диффузионных моделей. Более того, мы используем вывод, что оптимизация только ранних обратных шагов диффузии увеличивает эффективность, при этом обеспечивая, чтобы созданные примеры противодействия включали тонкий шум, сохраняя при этом качество ультразвуковых изображений без введения заметных артефактов. Мы показываем, что наш метод превосходит передовые методы атаки по трем наборам данных ультразвука молочной железы по FID и LPIPS. Более того, созданные изображения выглядят более естественно и более эффективно по сравнению с существующими атаками с противодействием. Наш код будет доступен публике https://github.com/yasamin-med/P2P.

Большие Модели Действий: От Концепции к Реализации

По мере того как ИИ продолжает развиваться, возрастает потребность в системах, которые выходят за рамки языковой помощи и переходят к интеллектуальным агентам, способным выполнять действия в реальном мире. Эта эволюция требует перехода от традиционных больших языковых моделей (LLM), которые отлично справляются с генерацией текстовых ответов, к большим моделям действий (LAM), разработанным для генерации и выполнения действий в динамических средах. Обеспеченные агентными системами, LAM имеют потенциал преобразовать ИИ из пассивного языкового понимания в активное выполнение задач, что отмечает значимый этап в прогрессе к искусственному общему интеллекту. В этой статье мы представляем обширную структуру для разработки LAM, предлагая систематический подход к их созданию, от замысла до развертывания. Мы начинаем с обзора LAM, подчеркивая их уникальные характеристики и обозначая их отличия от LLM. Используя основанного на операционной системе Windows агента в качестве примера, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию среды, основание и оценку. Этот обобщаемый рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем, определяя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного развертывания, подчеркивая вызовы и возможности, которые ждут впереди в реализации полного потенциала LAM в реальных приложениях. Код для процесса сбора данных, использованный в этой статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, а обширная документация доступна по адресу https://microsoft.github.io/UFO/dataflow/overview/.

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

KV Cache-Centric Analysis of Long-Context Methods

Долгосрочные LLM (языковые модели) способствовали множеству downstream-приложений, но также вызвали существенные проблемы, связанные с вычислительной и памятью. Чтобы решить эти проблемы, были разработаны оптимизации для долгосрочного вывода, сосредоточенные вокруг кэша KV. Однако существующие тесты часто оценивают в режиме одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недостаток особенно критичен, поскольку повторное использование кэша KV стало широко распространено в рамках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Чтобы устранить этот пробел, мы представляем SCBench (SharedContextBench), комплексный тест для оценки методов долгосрочного контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, покрывая четыре категории возможностей долгосрочного контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ решений долгосрочного контекста с акцентом на кэш KV по восьми категориям, включая Gated Linear RNNs, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, сброс кэша KV, квантование, извлечение, загрузку и сжатие подсказок. Оценка проводится на 8 долгосрочных LLM. Наши результаты показывают, что методы с памятью менее O(n) страдают в сценариях многопроходного общения, в то время как разреженное кодирование с памятью O(n) и вычислениями предварительной заливки менее O(n^2) демонстрирует надежную работу. Динамическая разреженность создает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоев в гибридных архитектурах снижает использование памяти с высокой производительностью. Кроме того, мы выявляем проблемы с изменением распределения внимания в сценариях долгосрочной генерации. https://aka.ms/SCBench.

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

Хотя крупные модели языка-видения-действия (VLA), предварительно обученные на обширных наборах данных роботов, предлагают многообещающие универсальные стратегии для обучения роботов, они всё ещё испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в выполнении сложных задач, таких как манипуляция. В данной работе мы представляем визуальное отслеживание подсказок, простой но эффективный подход для содействия пространственно-временной осведомленности моделей VLA при предсказании действий путём визуального кодирования траекторий состояния-действия. Мы разработали новую модель TraceVLA, дообучив OpenVLA на собственно собранном наборе данных из 150 000 траекторий манипуляции роботов с использованием визуального отслеживания подсказок. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовые характеристики, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза на задачах с реальными роботами, а также показывая надёжную генерализацию на различных воплощениях и сценариях. Для дальнейшей проверки эффективности и универсальности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предварительно обученную на Open-X-Embodiment и дообученную на нашем наборе данных, которая соперничает с базовой моделью 7B OpenVLA, значительно улучшая эффективность вывода.

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.