Ай Дайджест - категория algorithm

STIV: Масштабируемая генерация видео с учетом текста и изображений

Сфера генерации видео сделала замечательные успехи, однако существует настоятельная необходимость в четком, систематическом рецепте, который может направлять разработку надежных и масштабируемых моделей. В этой работе мы представляем всестороннее исследование, которое систематически изучает взаимосвязь архитектур моделей, рецептов обучения и стратегий кураторства данных, завершаясь простым и масштабируемым методом генерации видео, основанным на текстовых изображениях, названным STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадров, одновременно включая текстовое условие с помощью совместного классификатора на основе изображения и текста без управления. Этот дизайн позволяет STIV одновременно выполнять задачи генерации видео из текста (T2V) и генерации видео из текста и изображений (TI2V). Кроме того, STIV легко расширяется для различных приложений, таких как предсказание видео, интерполяция кадров, многослойная генерация и генерация длинных видео и т.д. Благодаря комплексным абляционным исследованиям T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на его простую структуру. Модель с 8.7B параметрами с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Модель такого же размера также достигает рекордного результата 90.1 на задаче VBench I2V с разрешением 512. Предлагая прозрачный и расширяемый рецепт для создания современных моделей генерации видео, мы стремимся поддержать будущие исследования и ускорить прогресс к более универсальным и надежным решениям в области генерации видео.

2024-12-11performance training model

Простая и доказуемая законопроектная модель для вычислений в тестовом времени больших языковых моделей

Мы предлагаем общий двухступенчатый алгоритм, который имеет доказанное закон масштабирования для вычислений в тестовом режиме больших языковых моделей (LLM). Учитывая входную задачу, предложенный алгоритм сначала генерирует N кандидатных решений, а затем выбирает лучшее через многократный нокаут-турнир, в котором каждую пару кандидатов сравнивают K раз, и только победители переходят в следующий раунд. В минималистской реализации оба этапа могут быть выполнены с помощью только черного ящика LLM и ничем другим (например, без внешнего проверяющего или модели вознаграждения), и для решения входной задачи требуется всего N*(K + 1) высокопараллелизуемых вызовов LLM. Предполагая, что сгенерированное кандидатное решение верно с вероятностью p_{gen} > 0 и что сравнение между парой правильных и неправильных решений определяет правильного победителя с вероятностью p_{comp} > 0,5 (т.е. лучше, чем случайное угадывание), мы теоретически доказываем, что вероятность неудачи предложенного алгоритма экспоненциально стремится к нулю по отношению к N и K: $P(итоговый вывод неверен) ≤ (1 - p_{gen})^N + ext{ceil}( ext{log}_2 N) e^{-2 K (p_{comp} - 0.5)^2}$. Наши эмпирические результаты с трудным эталоном MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и улучшения от масштабирования его вычислений в тестовом режиме.

2024-12-03tournament candidate probability

Оптимизация выбора данных для тонкой настройки больших языковых моделей: Введение в DELIFT

Тонкая настройка крупных языковых моделей (LLMs) необходима для улучшения их производительности на конкретных задачах, но часто требует значительных ресурсов из-за избыточных или неинформативных данных. Чтобы решить эту проблему неэффективности, мы представляем DELIFT (Data Efficient Language model Instruction Fine-Tuning), новый алгоритм, который систематически оптимизирует выбор данных на трех ключевых этапах тонкой настройки: (1) настройка по инструкциям, (2) специфическая для задачи тонкая настройка (например, рассуждения, ответы на вопросы) и (3) непрерывная тонкая настройка (например, внедрение новых версий данных). В отличие от существующих методов, которые сосредотачиваются на оптимизации одного этапа или полагаются на вычислительно сложные вычисления градиентов, DELIFT действует эффективно на всех этапах. Центральным элементом нашего подхода является метрика парной полезности, которая определяет, насколько полезен образец данных для улучшения ответов модели на другие образцы, эффективно измеряя информационную ценность относительно текущих возможностей модели. Используя различные субмодулярные функции, применяемые к этой метрике, DELIFT выбирает разнообразные и оптимальные подмножества данных, которые полезны на всех этапах тонкой настройки. Эксперименты на различных задачах и масштабах моделей показывают, что DELIFT может уменьшить объем данных для тонкой настройки до 70% без ущерба для производительности, предлагая значительную экономию вычислительных ресурсов и превосходя существующие методы по эффективности и результативности.

2024-11-11metric optimization data

Ограниченные Диффузионные Имплицитные Модели (CDIM)

Эта статья описывает эффективный алгоритм для решения шумных линейных обратных задач с использованием предобученных моделей диффузии. Расширяя парадигму имплицитных моделей диффузии с деноизацией (DDIM), мы предлагаем ограниченные имплицитные модели диффузии (CDIM), которые изменяют обновления диффузии для выполнения ограничения на конечный результат. Для задач без шума CDIM точно удовлетворяет ограничениям; в шумном случае мы обобщаем CDIM так, чтобы он удовлетворял точному ограничению на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченным DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая суперразрешение, деноизацию, заполнение, удаление размытия и реконструкцию облака точек 3D.

2024-11-05algorithm diffusion constraints