Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

GazeGen: Революция в Визуальном Контенте с Помощью Взгляда

Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

Усиление Конверсационных Агентов с помощью LLM, Насыщенных Навыками Разума

Для усиления социальных связей с собеседниками люди естественным образом приобретают способность адекватно реагировать в заданной ситуации, учитывая, какой навык общения наиболее подходит для ответа — процесс, который мы называем "навык ума". Для агентов беседы, основанных на больших языковых моделях (LLM), планирование подходящих навыков общения, как это делают люди, представляет собой сложную задачу из-за сложности социального диалога, особенно в интерактивных сценариях. Чтобы решить эту проблему, мы предлагаем набор данных бесед с аннотациями навыков ума, названный "Многоаспектный навык ума", который включает в себя многоходовые и многоаспектные навыки общения в различных интерактивных сценариях (например, долгосрочные, консультационные, ориентированные на задачу), основанные на разнообразных социальных контекстах (например, демография, персона, правила поведения). Этот набор данных содержит примерно 100 тысяч бесед. Используя этот набор данных, мы представляем новую семью LLM с интегрированными навыками ума, названную "Танос", с размерами модели в 1 миллиард, 3 миллиарда и 8 миллиардов параметров. Эти модели в ходе обширных экспериментов успешно демонстрируют процесс навыка ума и показывают высокую обобщаемость при выводе многоаспектных навыков в различных областях. Более того, мы показали, что Танос значительно улучшает качество ответов, генерируемых агентами бесед на основе LLM, и способствует про-социальному поведению в оценках человеком.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.

Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей

Смешение кодов, интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения, является широко распространенным лингвистическим явлением, особенно в многоязычных обществах. В Индии пользователи социальных сетей часто ведут смешанные коды разговоров с использованием латинского алфавита, особенно среди мигрантских сообществ, которые создают онлайн-группы для обмена актуальной местной информацией. В данной статье рассматриваются проблемы извлечения актуальной информации из смешанных кодов разговоров, в частности, из бенгальского языка, транслитерированного в латиницу и смешанного с английским. Это исследование предлагает новый подход к решению этих проблем путем разработки механизма для автоматического выявления наиболее релевантных ответов из смешанных кодов разговоров. Мы провели эксперименты на наборе данных, состоящем из запросов и документов из Facebook, а также файлов релевантности запросов (QRels), чтобы помочь в этой задаче. Наши результаты демонстрируют эффективность нашего подхода в извлечении значимой информации из сложных, смешанных кодов цифровых разговоров, что вносит вклад в более широкую область обработки естественного языка в многоязычных и неформальных текстовых средах. Мы используем GPT-3.5 Turbo через запросы, а также используем последовательную природу релевантных документов для построения математической модели, которая помогает обнаруживать релевантные документы, соответствующие запросу.

Открытый Код: Рецепт для Создания Лучших Моделей Кода на Базе LLM

Крупные языковые модели (LLM) для кода стали незаменимыми в различных областях, включая генерацию кода, задачи логического мышления и системы агентов. Хотя модели кода с открытым доступом всё чаще приближаются к уровню производительности проприетарных моделей, высококачественные LLM для кода, подходящие для строгих научных исследований, особенно те, которые имеют воспроизводимые пайплайны обработки данных и прозрачные протоколы обучения, остаются ограниченными. Такая нехватка обусловлена различными вызовами, включая ограничения ресурсов, этические соображения и конкурентные преимущества, связанные с сохранением передовых моделей. Чтобы заполнить этот пробел, мы представляем OpenCoder, модель LLM для кода высшего уровня, которая не только достигает производительности, сравнимой с ведущими моделями, но и служит «открытой кулинарной книгой» для научного сообщества. В отличие от большинства предыдущих попыток, мы публикуем не только веса модели и код для вывода, но и воспроизводимые обучающие данные, полный пайплайн обработки данных, результаты строгих экспериментальных абляций и подробные протоколы обучения для открытых научных исследований. Через это комплексное раскрытие мы определяем ключевые ингредиенты для создания модели LLM для кода высшего уровня: (1) оптимизированные эвристические правила для очистки данных и методы дедупликации данных, (2) вспоминание текстовых корпусов, связанных с кодом, и (3) высококачественные синтетические данные на этапах отжига и контролируемого дообучения. Предлагая такой уровень открытости, мы стремимся расширить доступ ко всем аспектам модели LLM для кода высшего уровня, при этом OpenCoder служит как мощной моделью, так и открытой основой для ускорения исследований и обеспечения воспроизводимых достижений в области ИИ для кода.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

M3D,OC,RAG: Революция в понимании документов с помощью многомодальных технологий

Визуальное ответное действие на вопросы из документов (DocVQA) обладает широкими возможностями применения. Существующие методы сосредоточены на обработке одностраничных документов с использованием мультимодальных языковых моделей (MLMs) или опираются на генерацию с улучшением через извлечение текста (RAG), которая использует инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако, существуют сложности в применении этих методов в реальных сценариях: (а) вопросы часто требуют информации из разных страниц или документов, где MLMs не могут обрабатывать множество длинных документов; (б) документы часто содержат важную информацию в визуальных элементах, таких как диаграммы, но инструменты извлечения текста их игнорируют. Мы представляем M3DocRAG, новую мультимодальную RAG-фреймворк, который гибко адаптируется к различным контекстам документов (закрытый и открытый домен), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, график, изображение и т.д.). M3DocRAG находит соответствующие документы и отвечает на вопросы, используя мультимодальный извлекатель и MLM, что позволяет эффективно обрабатывать один или множество документов, сохраняя при этом визуальную информацию. Поскольку предыдущие наборы данных DocVQA задавали вопросы в контексте конкретного документа, мы также представляем M3DocVQA, новый бенчмарк для оценки DocVQA в открытом домене с более чем 3000 PDF-документов и 40000+ страниц. В трех бенчмарках (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG с ColPali и Qwen2-VL 7B демонстрирует превосходные результаты по сравнению с многими сильными базовыми моделями, включая рекордные результаты в MP-DocVQA. Мы предоставляем всесторонний анализ различных индексов, MLMs и моделей извлечения. Наконец, мы качественно показываем, что M3DocRAG может успешно справляться с различными сценариями, например, когда соответствующая информация распределена по нескольким страницам и когда доказательства ответа существуют только в изображениях.

BitNet a4.8: Введение в 4-битные активации для 1-битных LLM

Недавние исследования 1-битовых крупномасштабных языковых моделей (LLM), таких как BitNet b1.58, показывают перспективное направление для снижения стоимости вывода LLM, сохраняя при этом их производительность. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битовых LLM. BitNet a4.8 использует гибридную стратегию квантования и разрежения для смягчения ошибок квантования, возникающих из-за выбросов в каналах. В частности, мы применяем 4-битные активации для входов в слои внимания и прямого распространения, в то время как промежуточные состояния разрежаются и затем подвергаются 8-битному квантованию. Обширные эксперименты показывают, что BitNet a4.8 достигает производительности, сравнимой с BitNet b1.58, при эквивалентных затратах на обучение, но при этом он быстрее работает на выводе, используя 4-битные (INT4/FP4) ядра. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный кэш KV, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

DynaMem: Инновационный подход к динамической навигации и манипуляции роботов

Значительный прогресс достигнут в области мобильной манипуляции с открытым словарём, где цель заключается в том, чтобы робот выполнял задачи в любой среде, основываясь на описании на естественном языке. Однако большинство современных систем предполагают статическую среду, что ограничивает их применимость в реальных сценариях, где окружение часто меняется из-за вмешательства человека или действий самого робота. В данной работе мы представляем DynaMem, новый подход к мобильной манипуляции в открытом мире, который использует динамическую пространственно-семантическую память для представления окружения робота. DynaMem создает трехмерную структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы по локализации объектов с открытым словарём с помощью мультимодальных языковых моделей (LLMs) или открытых словарных признаков, генерируемых передовыми моделями видео-языкового взаимодействия. Благодаря DynaMem, наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере того, как объекты перемещаются, появляются или исчезают в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти оффлайн сценах и достигли среднего уровня успеха в подъеме и укладке объектов, не находящихся на месте, в 70%, что более чем в два раза превышает результаты лучших статических систем. Наш код, а также видео экспериментов и развертывания открыты для общественного доступа и могут быть найдены на сайте проекта: https://dynamem.github.io/

Как LLM могут следовать информационным нитям в огромных контекстах?

По мере увеличения контекстных ограничений крупных языковых моделей (LLMs), расширяется и диапазон возможных приложений и последующих функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям часто разнородных документов, содержащих в основном нерелевантную информацию. LLMs с длинным контекстом кажутся хорошо приспособленными для такого рода сложного поиска и анализа информации, который традиционно оказывался затратным и трудоемким. Однако, несмотря на быстрые достижения в разработке моделей с более длинным контекстом за последние годы, наше понимание того, насколько эффективно LLMs используют свой контекст, не успевает за этими изменениями. Для решения этой проблемы мы проводим серию экспериментов по извлечению информации, предназначенных для оценки возможностей 17 ведущих LLMs, таких как их способность следить за потоками информации через контекстное окно. Удивительно, но мы обнаружили, что многие модели обладают замечательной способностью к многопоточности: они способны одновременно следить за несколькими потоками информации без значительного снижения производительности. Тем не менее, для многих моделей мы находим, что фактический предел контекста значительно меньше, чем поддерживаемая длина контекста, причем точность снижается по мере увеличения контекстного окна. Наше исследование также подчеркивает важный момент, что количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно различающемуся количеству написанных символов. Мы публикуем наш код и данные экспериментов с длинным контекстом.

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

ReCapture: Генерация Видео с Новыми Траекториями Камеры для Пользовательских Видео

В последнее время прорывы в моделировании видео позволили контролировать траектории камеры в генерируемых видео. Однако эти методы нельзя напрямую применять к видео, предоставленным пользователями, которые не были сгенерированы видеомоделью. В данной статье мы представляем ReCapture, метод для создания новых видео с новыми траекториями камеры из одного видео, предоставленного пользователем. Наш метод позволяет нам перегенерировать эталонное видео, сохраняя все его существующие сценические движения, с совершенно разных углов и с кинематографическими движениями камеры. Примечательно, что с помощью нашего метода мы также можем правдоподобно воспроизвести части сцены, которые не были видны в эталонном видео. Наш метод работает следующим образом: (1) генерируется шумное опорное видео с новой траекторией камеры с использованием моделей многовидовой диффузии или рендеринга на основе глубины облака точек, а затем (2) опорное видео перегенерируется в чистое и временно последовательное видео с измененным углом обзора с помощью нашей предложенной техники тонкой настройки видео с маскированием.

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.

SVDQuant: Поглощение выбросов с помощью низкоранговых компонентов для 4-битных диффузионных моделей

Модели диффузии доказали свою высокую эффективность в генерации изображений высокого качества. Однако, по мере увеличения размеров этих моделей, они требуют значительно больше памяти и страдают от более высокой задержки, что создает существенные проблемы для развертывания. В данной работе мы ставим цель ускорить модели диффузии, квантуя их веса и активации до 4 бит. На таком агрессивном уровне как веса, так и активации становятся очень чувствительными, где традиционные методы посттренинговой квантизации для больших языковых моделей, такие как сглаживание, становятся недостаточными. Чтобы преодолеть это ограничение, мы предлагаем SVDQuant, новый парадигм квантизации на 4 бита. В отличие от сглаживания, которое перераспределяет выбросы между весами и активациями, наш подход поглощает эти выбросы с помощью низкоранговой ветви. Сначала мы консолидируем выбросы, перемещая их с активаций на веса, затем используем высокоточную низкоранговую ветвь для приема весовых выбросов с помощью Сингулярного Разложения (SVD). Этот процесс облегчает квантизацию с обеих сторон. Однако, наивное запускание низкоранговой ветви независимо приводит к значительным накладным расходам из-за дополнительного перемещения данных активаций, что сводит на нет ускорение от квантизации. Для решения этой проблемы, мы разрабатываем совместно инференционный движок Nunchaku, который сливает ядра низкоранговой ветви в ядра низкобитовой ветви, чтобы избежать избыточного доступа к памяти. Он также может без проблем поддерживать готовые низкоранговые адаптеры (LoRAs) без необходимости переквантизации. Обширные эксперименты на SDXL, PixArt-Sigma и FLUX.1 подтверждают эффективность SVDQuant в сохранении качества изображения. Мы уменьшили использование памяти для моделей FLUX.1 объемом 12B в 3.5 раза, достигнув ускорения в 3.0 раза по сравнению с базовым квантизованным только весами на 4 бита на ноутбуке с 16GB GPU 4090, что открывает путь к более интерактивным приложениям на ПК. Наша библиотека квантизации и инференционный движок являются открытым исходным кодом.