Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "fine-tuning"

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

VideoICL: Новая эра в понимании видео с помощью итеративного обучения в контексте

Недавние достижения в области больших мультимодальных моделей видео (LMMs) значительно улучшили их способности к пониманию и рассуждению в видео. Однако их эффективность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как дообучение на OOD наборах данных, непрактичны из-за высокой вычислительной стоимости. Хотя обучение в контексте (ICL) с примерами демонстрации показало многообещающие результаты в языковых задачах и задачах с изображениями и языком без дообучения, применение ICL к задачам видео-языка сталкивается с трудностями из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Чтобы решить эти проблемы, мы предлагаем VideoICL, новую структуру обучения в контексте видео для OOD задач, которая вводит стратегию выбора релевантных примеров на основе сходства и итеративный подход к выводу, основанный на уверенности. Это позволяет выбирать наиболее релевантные примеры и сортировать их по сходству для использования при выводе. Если сгенерированный ответ имеет низкий уровень уверенности, наша структура выбирает новые примеры и снова выполняет вывод, итеративно уточняя результаты, пока не будет получен ответ с высокой уверенностью. Этот подход улучшает понимание видео OOD, расширяя эффективную длину контекста без высоких затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительные улучшения в производительности, особенно в специфических сценариях, закладывая основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.

Путь к репликации O1: Простая дистилляция и её последствия

Эта статья представляет собой критический анализ текущих подходов к репликации возможностей модели O1 от OpenAI, с особым акцентом на широко распространённое, но часто не раскрываемое использование техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к репликации O1, данное исследование показывает, как простая дистилляция с использованием API O1, в сочетании с контролируемой настройкой, может достигать превосходных результатов в сложных задачах математического рассуждения. Путём обширных экспериментов мы показываем, что базовая модель, настроенная на десятки тысяч образцов, дистиллированных из O1, превосходит предварительную версию O1 на Американском пригласительном математическом экзамене (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за рамки математического рассуждения и исследует возможности обобщения моделей, дистиллированных из O1, на разнообразные задачи: галлюцинации, безопасность и вопросы и ответы в открытом домене. Отметим, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого QA и стали значительно менее подвержены подхалимству после настройки. Мы намеренно публикуем эти результаты для содействия прозрачности в исследованиях ИИ и для оспаривания текущей тенденции к скрытию технических утверждений в этой области. Наша работа включает: (1) детальное техническое изложение процесса дистилляции и его эффективности, (2) всеобъемлющую рамку бенчмарков для оценки и категоризации попыток репликации O1 на основе их технической прозрачности и воспроизводимости, (3) критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции. Наш анализ завершается важным горьким уроком: хотя стремление к созданию более способных систем ИИ важно, развитие исследователей, опирающихся на мышление с первых принципов, является первостепенным.

Стильные решения: SNR-сэмплер для генерации изображений с учетом стиля

Современные крупномасштабные диффузионные модели создают высококачественные изображения, но сталкиваются с трудностями при обучении новым, индивидуализированным художественным стилям, что ограничивает создание уникальных стилевых шаблонов. Наиболее перспективным подходом является тонкая настройка с использованием референсных изображений, однако часто это делается слепо, применяя те же цели и распределения уровней шума, что и при предварительном обучении, что приводит к неоптимальному соответствию стилю. Мы предлагаем новый метод - "самплер SNR, дружественный к стилю", который агрессивно смещает распределение отношения сигнал-шум (SNR) в сторону более высоких уровней шума во время тонкой настройки, фокусируясь на уровнях шума, где проявляются стилистические особенности. Это позволяет моделям лучше захватывать уникальные стили и генерировать изображения с более высокой стилевой согласованностью. Наш метод позволяет диффузионным моделям учиться и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы демонстрируем возможность создания стилей, таких как персональные акварельные картины, минималистичные плоские мультфильмы, 3D-визуализации, многопанельные изображения и мемы с текстом, тем самым расширяя диапазон генерации, основанной на стиле.

Усиление способностей к мультимодальному рассуждению с помощью оптимизации смешанных предпочтений

Существующие открытые мультимодальные крупные языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и настройку под надзором. Однако эти модели страдают от сдвигов распределения, что ограничивает их мультимодальное рассуждение, особенно в задачах цепочки рассуждений (Chain-of-Thought, CoT). Чтобы решить эту проблему, мы вводим процесс оптимизации предпочтений (PO), чтобы улучшить мультимодальные способности к рассуждению MLLM. В частности: 1. **На стороне данных** мы разработали автоматизированный конвейер для создания предпочтительных данных, чтобы создать MMPR - высококачественный, крупномасштабный набор данных мультимодальных предпочтений для рассуждений. 2. **На стороне модели** мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанной Оптимизацией Предпочтений (Mixed Preference Optimization, MPO), который улучшает мультимодальную производительность CoT. Наш подход демонстрирует улучшение результатов на нескольких бенчмарках, особенно в задачах мультимодального рассуждения. В частности, наша модель, InternVL2-8B-MPO, достигла точности 67.0 на MathVista, опережая InternVL2-8B на 8.7 пунктов и показывая результаты, сравнимые с InternVL2-76B, которая в 10 раз больше. Мы надеемся, что это исследование вдохновит на дальнейшие улучшения в области MLLM. Код, данные и модель будут доступны для общественности.

Объединённый поиск: Создание доступных адаптаций LLM для языков с ограниченными ресурсами

Большие языковые модели (LLMs) показывают низкие результаты на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает данные из Common Crawl с использованием минимальных вычислительных ресурсов, что позволяет получить монолингвальные наборы данных значительно большего объема, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для дообучения многоязычных LLM с помощью эффективных адаптерных методов (QLoRA) значительно улучшает производительность на языках с ограниченными ресурсами, при этом минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение перплексии языковой модели и увеличение баллов при использовании few-shot подходов. Наша работа и выпущенный исходный код предоставляют доступный способ улучшения LLM для языков с ограниченными ресурсами с использованием потребительского оборудования. Исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.

Оценка качества изображения для областей интереса с использованием инструкционной настройки видео-языковых моделей

Существующие методы оценки качества изображения (IQA) достигли значительных успехов в анализе качества целого изображения, однако немногие работы исследуют анализ качества для областей интереса (ROIs). Анализ качества ROIs может предоставить детальные рекомендации для улучшения качества изображения и является ключевым для сценариев, ориентированных на качество на уровне регионов. В данной статье предлагается новая сеть, SEAGULL, которая может видеть и оценивать качество ROIs с использованием руководства от большой модели "видение-язык". SEAGULL включает модель "видение-язык" (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для указания ROIs, и тщательно разработанный экстрактор признаков на основе масок (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, что позволяет выполнять точную оценку качества на уровне ROIs. Более того, в статье созданы два набора данных IQA на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки IQA на основе ROIs. SEAGULL-100w содержит около 100 тысяч синтетических искаженных изображений с 33 миллионами ROIs для предобучения, чтобы улучшить способность модели воспринимать качество регионов, а SEAGULL-3k включает около 3 тысяч реальных искаженных ROIs для повышения способности модели воспринимать реальные искажения. После предобучения на SEAGULL-100w и дообучения на SEAGULL-3k, SEAGULL демонстрирует выдающиеся результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны по адресу https://github.com/chencn2020/Seagull.

SlimLM: Эффективная Малая Языковая Модель для Документальной Помощи на Мобильных Устройствах

В то время как небольшие языковые модели (SLMs) показывают перспективы для развертывания на мобильных устройствах, их реальная производительность и применение на смартфонах остаются недостаточно изученными. Мы представляем SlimLM, серию SLMs, оптимизированных для задач помощи с документами на мобильных устройствах. Проведя обширные эксперименты на Samsung Galaxy S24, мы определили оптимальный баланс между размером модели (от 125 миллионов до 7 миллиардов параметров), длиной контекста и временем вывода для эффективной обработки на устройстве. SlimLM предварительно обучена на SlimPajama-627B и дообучена на DocAssist, нашем собственном наборе данных для задач по суммаризации, ответам на вопросы и предложениям. Наша наименьшая модель демонстрирует эффективную работу на S24, в то время как более крупные варианты предлагают улучшенные возможности в рамках мобильных ограничений. Мы сравнили SlimLM с существующими SLMs, показав сопоставимую или превосходящую производительность, и предоставили эталон для будущих исследований в области языковых моделей, работающих на устройствах. Мы также предоставляем Android-приложение, дающее практические представления о развертывании SLM. Наши выводы предоставляют ценные инсайты и освещают возможности использования продвинутых языковых моделей на высококлассных смартфонах, что потенциально снижает серверные затраты и улучшает конфиденциальность за счет обработки на устройстве.

Как Чтение Манги Может Помочь Видео-Моделям Понимать Время

Видео Большие Языковые Модели (Vid-LLMs) достигли значительных успехов в понимании видеоконтента для диалога с вопросами и ответами. Однако они сталкиваются с трудностями при расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Временная Локализация Видео (VTG). Чтобы преодолеть этот разрыв, мы представляем Числовую Подсказку (NumPro), новаторский метод, который позволяет Vid-LLMs соединять визуальное понимание с временной локализацией, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: перелистывание страниц манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно улучшает производительность VTG ведущих Vid-LLMs без дополнительных вычислительных затрат. Более того, доработка на наборе данных, усиленном NumPro, устанавливает новый стандарт для VTG, превосходя предыдущие лучшие методы на 6.9% по mIoU для извлечения моментов и на 8.5% по mAP для обнаружения выделенных моментов. Код будет доступен по адресу https://github.com/yongliang-wu/NumPro.

LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей

Эта работа исследует расширение возможностей крупных языковых моделей (LLMs), предварительно обученных на текстах, для генерации 3D сеток в рамках единой модели. Это предлагает ключевые преимущества: (1) использование пространственных знаний, уже заложенных в LLM, полученных из текстовых источников, таких как 3D руководства, и (2) возможность диалоговой генерации 3D и понимания сеток. Основной вызов заключается в эффективной токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем LLaMA-Mesh, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса. Мы создаем набор данных для настроенного обучения с учителем (SFT), который позволяет предварительно обученным LLM (1) генерировать 3D сетки из текстовых запросов, (2) производить смешанные текстовые и 3D сеточные выходные данные по требованию и (3) понимать и интерпретировать 3D сетки. Наша работа впервые демонстрирует, что LLM могут быть настроены для приобретения сложных пространственных знаний для генерации 3D сеток в текстовом формате, эффективно объединяя 3D и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток, сравнимого с моделями, обученными с нуля, при этом сохраняя высокую производительность генерации текста.

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, но все еще испытывают трудности с рассуждением на основе длинных контекстов. Существующие подходы обычно включают дообучение LLM с использованием синтетических данных, что зависит от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, тем самым ограничивая дальнейшее развитие. Чтобы решить эту проблему, мы исследуем потенциал LLM для самосовершенствования в рассуждении на основе длинных контекстов и предлагаем подход \ours, специально разработанный для этой цели. Этот подход прост: мы генерируем несколько ответов на каждый вопрос, оцениваем их с помощью метода минимального байесовского риска и затем применяем дообучение с учителем или оптимизацию предпочтений на основе этих ответов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность \ours, с абсолютным улучшением на 4.2 балла для Llama-3.1-8B-Instruct. Более того, \ours показывает превосходные результаты по сравнению с предыдущими подходами, которые зависят от данных, произведенных человеческими экспертами или продвинутыми моделями. Мы ожидаем, что эта работа откроет новые пути для техник самосовершенствования в сценариях с длинными контекстами, что необходимо для постоянного развития LLM.

Как DPO снижает токсичность: Взгляд на внутренние механизмы

Алгоритмы тонкой настройки безопасности часто используются для доработки языковых моделей с целью уменьшения вредных результатов, однако точные внутренние механизмы, с помощью которых модели достигают этого, остаются неясными. В исследовании прямой оптимизации предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO действует, снижая активность наиболее токсичных нейронов MLP, чтобы научиться избегать токсичных областей в остаточном потоке. Тем не менее, после удаления наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы установили, что только 31.8% снижения токсичности происходит за счет ослабления токсичных нейронов. Вместо этого, DPO снижает токсичность, накапливая эффекты по нескольким группам нейронов, как уменьшая выражение в токсичном направлении, так и стимулируя анти-токсичность в остаточном потоке. Более того, DPO вносит шумные корректировки в активацию нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансирования противоположных эффектов нейронов для достижения снижения токсичности.

Обнаружение и смягчение ложных корреляций в моделях обработки изображений и языка

Модели, объединяющие зрение и язык (VLM), которые были тонко настроены, часто улавливают ложные корреляции между чертами изображения и текстовыми атрибутами, что приводит к снижению эффективности нулевого шага на этапе тестирования. Существующие методы для устранения ложных корреляций (i) в основном работают на уровне всего изображения, а не вмешиваются непосредственно в детализированные черты изображения, и (ii) в большинстве своем разработаны для одномодальных условий. В данной работе мы представляем RaVL, который рассматривает устойчивость VLM с детализированной точки зрения, обнаруживая и устраняя ложные корреляции с использованием локальных черт изображения, а не работая на уровне всего изображения. При наличии тонко настроенной VLM, RaVL сначала обнаруживает ложные корреляции, используя подход кластеризации на уровне регионов для выявления точных черт изображения, способствующих ошибкам нулевого шага в классификации. Затем, RaVL устраняет выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, которая позволяет VLM сосредоточиться на релевантных областях и игнорировать ложные связи во время тонкой настройки. Мы оцениваем RaVL на 654 VLM с различными архитектурами моделей, областями данных и изученными ложными корреляциями. Наши результаты показывают, что RaVL точно обнаруживает (улучшение на 191% по сравнению с ближайшим базовым уровнем) и устраняет (улучшение на 8.2% по точности классификации в худшей группе изображений) ложные корреляции. Качественные оценки на VLM общего назначения и медицинской области подтверждают наши выводы.

Оптимизация выбора данных для тонкой настройки больших языковых моделей: Введение в DELIFT

Тонкая настройка крупных языковых моделей (LLMs) необходима для улучшения их производительности на конкретных задачах, но часто требует значительных ресурсов из-за избыточных или неинформативных данных. Чтобы решить эту проблему неэффективности, мы представляем DELIFT (Data Efficient Language model Instruction Fine-Tuning), новый алгоритм, который систематически оптимизирует выбор данных на трех ключевых этапах тонкой настройки: (1) настройка по инструкциям, (2) специфическая для задачи тонкая настройка (например, рассуждения, ответы на вопросы) и (3) непрерывная тонкая настройка (например, внедрение новых версий данных). В отличие от существующих методов, которые сосредотачиваются на оптимизации одного этапа или полагаются на вычислительно сложные вычисления градиентов, DELIFT действует эффективно на всех этапах. Центральным элементом нашего подхода является метрика парной полезности, которая определяет, насколько полезен образец данных для улучшения ответов модели на другие образцы, эффективно измеряя информационную ценность относительно текущих возможностей модели. Используя различные субмодулярные функции, применяемые к этой метрике, DELIFT выбирает разнообразные и оптимальные подмножества данных, которые полезны на всех этапах тонкой настройки. Эксперименты на различных задачах и масштабах моделей показывают, что DELIFT может уменьшить объем данных для тонкой настройки до 70% без ущерба для производительности, предлагая значительную экономию вычислительных ресурсов и превосходя существующие методы по эффективности и результативности.

Эффективное тонкое настройка крупных языковых моделей для генерации юнит-тестов: Эмпирическое исследование

Появление крупных языковых моделей (LLMs), таких как GitHub Copilot, значительно повысило продуктивность программистов, особенно в области генерации кода. Однако эти модели часто сталкиваются с трудностями при выполнении реальных задач без дообучения. По мере того как LLM становятся больше и более производительными, дообучение для специализированных задач становится все более дорогим. Методы параметрически-эффективного дообучения (PEFT), которые дообучают только подмножество параметров модели, предлагают перспективное решение, уменьшая вычислительные затраты на настройку LLM при сохранении их производительности. Существующие исследования исследовали использование PEFT и LLM для различных задач, связанных с кодом, и обнаружили, что эффективность методов PEFT зависит от задачи. Применение методов PEFT в генерации модульных тестов остается недостаточно изученным. На данный момент передовой уровень ограничивается использованием LLM с полным дообучением для генерации модульных тестов. В данной статье исследуются как полное дообучение, так и различные методы PEFT, включая LoRA, (IA)^3 и настройку запросов, для разных архитектур и размеров моделей. Мы используем хорошо установленные эталонные наборы данных для оценки их эффективности в генерации модульных тестов. Наши результаты показывают, что методы PEFT могут обеспечивать производительность, сравнимую с полным дообучением, для генерации модульных тестов, делая специализированное дообучение более доступным и экономически выгодным. Особенно стоит отметить, что настройка запросов является наиболее эффективной в плане затрат и использования ресурсов, в то время как метод LoRA приближается к эффективности полного дообучения в нескольких случаях.

LLM2CLIP: Как мощные языковые модели улучшают визуальные представления

CLIP является одной из наиболее важных мультимодальных базовых моделей сегодня. Что обеспечивает возможности CLIP? Богатые сигналы надзора, предоставляемые естественным языком, носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрым развитием крупных языковых моделей (LLM), таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это ставит интригующий вопрос: можно ли использовать возможности LLM для дальнейшего улучшения мультимодального обучения представлений? Потенциальные выгоды от интеграции LLM в CLIP очевидны. Сильное текстовое понимание LLM может существенно улучшить способность CLIP обрабатывать подписи к изображениям, значительно повышая его способность работать с длинными и сложными текстами, что является известным ограничением оригинального CLIP. Более того, LLM обучаются на огромных корпусах текста, обладая знаниями открытого мира. Это позволяет им расширять информацию подписей во время обучения, повышая эффективность процесса обучения. В этой статье мы предлагаем LLM2CLIP, новый подход, который использует силу LLM для раскрытия потенциала CLIP. Путем тонкой настройки LLM в пространстве подписей с использованием контрастивного обучения, мы извлекаем его текстовые способности в выходные вложения, значительно улучшая дискриминационность текстовых выходных данных. Затем мы разрабатываем эффективный процесс обучения, где тонко настроенный LLM выступает в роли мощного учителя для визуального энкодера CLIP. Благодаря присутствию LLM, мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и возможностями текстового энкодера оригинального CLIP. Наши эксперименты показывают, что этот подход приносит значительные улучшения в кросс-модальных задачах.

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

ReCapture: Генерация Видео с Новыми Траекториями Камеры для Пользовательских Видео

В последнее время прорывы в моделировании видео позволили контролировать траектории камеры в генерируемых видео. Однако эти методы нельзя напрямую применять к видео, предоставленным пользователями, которые не были сгенерированы видеомоделью. В данной статье мы представляем ReCapture, метод для создания новых видео с новыми траекториями камеры из одного видео, предоставленного пользователем. Наш метод позволяет нам перегенерировать эталонное видео, сохраняя все его существующие сценические движения, с совершенно разных углов и с кинематографическими движениями камеры. Примечательно, что с помощью нашего метода мы также можем правдоподобно воспроизвести части сцены, которые не были видны в эталонном видео. Наш метод работает следующим образом: (1) генерируется шумное опорное видео с новой траекторией камеры с использованием моделей многовидовой диффузии или рендеринга на основе глубины облака точек, а затем (2) опорное видео перегенерируется в чистое и временно последовательное видео с измененным углом обзора с помощью нашей предложенной техники тонкой настройки видео с маскированием.

Зебра-Лама: Контекстно-осведомлённый Большой Языковой Модель для Демократизации Знаний о Редких Заболеваниях

Редкие заболевания представляют уникальные вызовы в области здравоохранения, часто страдая от задержек в диагностике и фрагментированных информационных ландшафтов. Нехватка надежных знаний в этих условиях создает особые трудности для больших языковых моделей (LLMs) в поддержке клинического управления и предоставлении точной информации пациентам, подчеркивая необходимость специализированного обучения на этих "зебровых" случаях. Мы представляем Zebra-Llama, специализированную контекстно-зависимую языковую модель с высокоточной возможностью генерации с улучшенной выборкой (RAG), сосредотачиваясь на синдроме Элерса-Данлоса (EDS) как нашем кейсе. EDS, затрагивающий одного из 5000 человек, является примером сложностей редких заболеваний со своими разнообразными симптомами, множеством подтипов и эволюционирующими диагностическими критериями. Внедряя новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на экспертно курированных ответах, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обеими моделями, что выявило значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенная как открытый ресурс, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает основу для разработки специализированных AI решений для других редких состояний. Эта работа представляет важный шаг на пути к демократизации знаний экспертного уровня в управлении редкими заболеваниями, что потенциально может изменить подход к решению комплексных проблем в области редких болезней как для медицинских работников, так и для пациентов.

llmragtraining

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.