Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "finetuning"

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

Хотя крупные модели языка-видения-действия (VLA), предварительно обученные на обширных наборах данных роботов, предлагают многообещающие универсальные стратегии для обучения роботов, они всё ещё испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в выполнении сложных задач, таких как манипуляция. В данной работе мы представляем визуальное отслеживание подсказок, простой но эффективный подход для содействия пространственно-временной осведомленности моделей VLA при предсказании действий путём визуального кодирования траекторий состояния-действия. Мы разработали новую модель TraceVLA, дообучив OpenVLA на собственно собранном наборе данных из 150 000 траекторий манипуляции роботов с использованием визуального отслеживания подсказок. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовые характеристики, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза на задачах с реальными роботами, а также показывая надёжную генерализацию на различных воплощениях и сценариях. Для дальнейшей проверки эффективности и универсальности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предварительно обученную на Open-X-Embodiment и дообученную на нашем наборе данных, которая соперничает с базовой моделью 7B OpenVLA, значительно улучшая эффективность вывода.

VisionArena: Новая эра взаимодействия пользователей с моделями визуального языка

С растущим принятием и возможностями моделей зрения-языка (VLM) возникает необходимость в контрольных показателях, которые отражают аутентичные взаимодействия пользователей с VLM. В ответ мы создаем VisionArena, набор данных из 230K реальных разговоров между пользователями и VLM. Собранный на платформе Chatbot Arena - открытой платформе, где пользователи взаимодействуют с VLM и подают голосование за предпочтения - VisionArena охватывает 73K уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подсета: VisionArena-Chat, 200K одиночных и многоповоротных разговоров между пользователем и VLM; VisionArena-Battle, 30K разговоров, сравнивающих двух анонимных VLM с голосами предпочтений пользователей; и VisionArena-Bench, автоматическая оценка из 500 различных пользовательских запросов, которые эффективно приближаются к живым рейтингам моделей Chatbot Arena. Кроме того, мы подчеркиваем виды вопросов, задаваемых пользователями, влияние стиля ответов на предпочтения и области, где модели часто терпят неудачу. Мы обнаруживаем, что задачи с открытым окончанием, такие как создание подписей и юмор, сильно зависят от стиля, а текущие VLM испытывают трудности с пространственным мышлением и планированием задач. Наконец, мы показываем, что дообучение той же основной модели на VisionArena-Chat превосходит Llava-Instruct-158K, с увеличением на 17 пунктов в MMMU и на 46 пунктов в оценке WildVision. Набор данных доступен на https://huggingface.co/lmarena-ai.

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от крупных языковых моделей (LLMs) до крупных мультимодальных моделей (LMMs) и генерации двумерного контента, приближаясь к достижению искусственного общего интеллекта (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию трехмерных объектов остается в значительной степени неизведанным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный трехмерный векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов с целью эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего одиночного токена, SAR3D значительно сокращает время генерации, позволяя создавать трехмерные объекты всего за 0.82 секунды на GPU A6000. Кроме того, учитывая, что токены обогащены иерархической информацией, учитывающей трехмерность, мы дообучаем предобученную LLM на этих токенах, что позволяет многомодальному пониманию трехмерного контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D объектов как по скорости, так и по качеству, а также позволяет LLM интерпретировать и описывать трехмерные модели комплексно.

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

Edify Image: Высококачественная Генерация Изображений с Использованием Моделей Диффузии в Пиксельном Пространстве

Мы представляем Edify Image, семейство диффузионных моделей, способных генерировать фотореалистичное изображение с пиксельной точностью. Edify Image использует каскадные модели диффузии в пространстве пикселей, обученные с использованием новаторского процесса лапласианской диффузии, при котором сигналы изображения в различных частотных полосах затухают с разной скоростью. Edify Image поддерживает широкий спектр применений, включая синтез изображения из текста, повышение разрешения до 4K, ControlNets, генерацию 360-градусных HDR панорам и тонкую настройку для кастомизации изображений.

Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

Само-согласование, при котором модели учатся улучшать себя без человеческой разметки, является быстро развивающейся областью исследований. Однако существующие методы часто не справляются с улучшением сложных задач мышления из-за трудности в присвоении правильных наград. Ортогональным подходом, который известен своей способностью улучшать точность, является само-согласованность, метод, применяемый на этапе вывода на основе многократной выборки для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию само-согласованности для помощи в обучении моделей. Мы вводим оптимизацию предпочтений само-согласованности (ScPO), которая итеративно обучает модели предпочитать согласованные ответы несогласованным на новых ненадзорных задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с традиционным обучением модели наград на задачах мышления, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинация ScPO со стандартным контролируемым обучением улучшает результаты еще больше. На ZebraLogic, ScPO дообучает Llama-3 8B, делая её превосходящей Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.