Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "precision"

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.