Ай Дайджест

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

steering activation control

LLaMo: Large Language Model-based Molecular Graph Assistant

Большие языковые модели (LLMs) продемонстрировали выдающиеся способности к обобщению и выполнению инструкций благодаря настройке на инструкции. Прогресс в области LLM и настройки на инструкции привел к развитию Больших моделей языка и зрения (LVLMs). Однако возможности LLM и настройки на инструкции были менее изучены в молекулярной области. Поэтому мы предлагаем LLaMo: ассистент молекулярных графов на основе большой языковой модели, который представляет собой обученную от начала до конца большую молекулярную графо-языковую модель. Для сближения различий между языковыми и графовыми модальностями мы представляем многоуровневый графовый проектор, который преобразует представления графов в токены графов, абстрагируя выходные представления каждого слоя GNN и мотивные представления с помощью механизма перекрестного внимания. Мы также вводим данные инструкций для молекулярных графов, генерируемые машинами, для настройки большой молекулярной графо-языковой модели для общего понимания молекул и языка. Наши обширные эксперименты показывают, что LLaMo демонстрирует наилучшие результаты на разнообразных задачах, таких как генерация описания молекул, прогнозирование свойств и предсказание названий по ИЮПАК. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

llm tuning vision

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

alignment bandits exploration

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

model texture geometry

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

mllm robotics vision

Адаптивная Длина Токенизации Изображений через Рекуррентное Выделение

Текущие системы компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержания информации. Это контрастирует с человеческим интеллектом — и даже с большими языковыми моделями — которые распределяют различные объемы представлений в зависимости от энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщика-декодера рекурсивно обрабатывает токены двумерных изображений, превращая их в одномерные скрытые токены в ходе нескольких итераций рекуррентных проходов. Каждая итерация уточняет двумерные токены, обновляет существующие одномерные скрытые токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256. Мы проверяем наш токенизатор, используя метрики потери восстановления и FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям последующих задач. Рекуррентная обработка токенов с увеличением представительной емкости на каждой итерации показывает признаки специализации токенов, открывая потенциал для обнаружения объектов или частей.

encoder decoder token

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

llm rag training

Связь между точностью обнаружения объектов, визуальной салиентностью и оценкой глубины

По мере развития методов обнаружения объектов, понимание их взаимосвязей с комплементарными визуальными задачами становится критически важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя основными визуальными задачами: предсказанием глубины и предсказанием визуальной значимости. Через обширные эксперименты с использованием моделей последнего поколения (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC, мы обнаружили, что визуальная значимость демонстрирует более сильные корреляции с точностью обнаружения объектов (mArho до 0.459 на Pascal VOC), по сравнению с предсказанием глубины (mArho до 0.283). Наш анализ выявил значительные вариации этих корреляций между категориями объектов, где большие объекты показывают значения корреляции в три раза выше, чем маленькие объекты. Эти результаты предполагают, что включение признаков визуальной значимости в архитектуры обнаружения объектов может быть более выгодным, чем информация о глубине, особенно для определённых категорий объектов. Обнаруженные вариации, специфичные для категорий, также предоставляют понимание для целенаправленной инженерии признаков и улучшений в дизайне наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.

detection saliency depth

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

rag llms html

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

neural implicit generalization

Оптимальные Визуальные Языковые Модели (VLM): Ключ к Эффективности

Модели языка и видения (VLMs) продемонстрировали высокую эффективность в различных задачах понимания и анализа визуальной информации. Однако их внедрение в реальном мире часто ограничено высокой задержкой при выводе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов (преимущественно из изображений) языковой моделью (LLM). Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, причем последнее стало фокусом многих недавних исследований по сжатию токенов. Однако неясно, каков оптимальный баланс, поскольку оба фактора напрямую влияют на производительность VLM. Мы впервые характеризуем этот оптимальный баланс между количеством визуальных токенов и параметрами LLM, устанавливая законы масштабирования, которые отражают изменения производительности с учетом этих двух факторов. Наши результаты выявляют неожиданную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLMs, то есть минимальная ошибка при любом фиксированном вычислительном бюджете, достигается при использовании самой большой LLM, которая вписывается в бюджет вывода, при этом минимизируя количество визуальных токенов, часто до одного токена. Хотя литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты указывают на то, что оптимальный режим вывода с точки зрения вычислительных ресурсов требует работы при еще более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы делаем первые шаги к разработке подходов, адаптированных для условий высокой компрессии токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

vision language model