Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "quality"

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

Масштабирование поиска во время вывода с помощью модели Vision Value для улучшения визуального восприятия

Несмотря на значительные достижения в области моделей визуального языка (VLM), отсутствуют эффективные подходы для повышения качества ответов за счет масштабирования вычислений во время вывода. Эта способность известна как ключевой шаг к самоусовершенствующимся моделям в недавних исследованиях больших языковых моделей. В этой статье мы представляем модель Vision Value Model (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. В частности, VisVM не только оценивает качество сгенерированного предложения на текущем шаге поиска, но и предсказывает качество последующих предложений, которые могут возникнуть из текущего шага, тем самым предоставляя долгосрочную ценность. Таким образом, VisVM отвлекает VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск с помощью VisVM значительно усиливает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций по сравнению с жадным декодированием и поисковыми методами с другими визуальными сигналами вознаграждения. Кроме того, мы обнаружили, что самообучение модели с помощью подписи, направляемой VisVM, улучшает производительность VLM по множеству мультимодальных бенчмарков, что указывает на потенциал разработки самоусовершенствующихся VLM. Наша модель ценности и код доступны по адресу https://github.com/si0wang/VisVM.

4Real-Video: Новая эра генерации 4D-видео с помощью диффузионных моделей

Мы предлагаем 4Real-Video, новую структуру для генерации 4D-видео, организованную в виде сетки видеокадров с временной и угловой осями. В этой сетке каждая строка содержит кадры, связанные с одной и той же временной отметкой, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую архитектуру с двумя потоками. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформера слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямопотоковая архитектура превосходит предыдущую работу тремя способами: более высокая скорость вывода, улучшенное визуальное качество (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и угловая согласованность (измеряемая по VideoScore и Dust3R-Confidence).

Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Модели диффузии были применены для завершения сцен 3D LiDAR благодаря их высокой стабильности обучения и качеству завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В этой статье предлагается новый метод дистилляции, адаптированный для моделей завершения сцен 3D LiDAR, названный ScoreLiDAR, который достигает эффективного и качественного завершения сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньше шагов после дистилляции. Для улучшения качества завершения мы также вводим новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены 3D LiDAR. Потеря содержит терм, ограничивающий целостную структуру сцены, и точечный терм, ограничивающий ключевые контрольные точки и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунд на кадр (>5 раз) на SemanticKITTI и достигает превосходной производительности по сравнению с современными моделями завершения сцен 3D LiDAR. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.

NitroFusion: Высококачественная одноступенчатая диффузия через динамическое противостоящее обучение

Мы представляем NitroFusion, принципиально новый подход к одномоментной диффузии, который достигает высокого качества генерации с помощью динамической антагонистической структуры. Хотя одномоментные методы предлагают значительные преимущества в скорости, они, как правило, страдают от ухудшения качества по сравнению с многомоментными аналогами. Точно так же, как панель критиков искусства предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход сохраняет большой пул специализированных дискриминаторов, которые вместе направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в определенных аспектах качества на разных уровнях шума, предоставляя разнообразную обратную связь, которая позволяет добиться высококачественной одномоментной генерации. Наша структура сочетает: (i) динамический пул дискриминаторов со специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов, и (iii) глобально-локальные дискриминаторы для оценки качества на различных масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникально поддерживает гибкое развертывание через усовершенствование снизу-вверх, позволяя пользователям динамически выбирать между 1-4 шагами денойзинга с использованием одной и той же модели для прямого компромисса между качеством и скоростью. Через комплексные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одномоментные методы по множеству оценочных метрик, особенно выделяясь в сохранении тонких деталей и глобальной согласованности.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

TeaCache: Ускорение Моделей Диффузии Видео

Как фундаментальная основа для генерации видео, модели диффузии сталкиваются с проблемой низкой скорости вывода из-за последовательного характера денойзинга. Предыдущие методы ускоряют модели, кэшируя и повторно используя выходные данные модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходными данными модели неравномерны на временных шагах, что затрудняет выбор соответствующих выходных данных модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В этом исследовании мы представляем Кэш, учитывающий встроения временных шагов (TeaCache), свободный от обучения подход кэширования, который оценивает и использует колеблющиеся различия между выходными данными модели на временных шагах. Вместо того чтобы напрямую использовать временные выходные данные модели, TeaCache сосредотачивается на входных данных модели, которые имеют сильную корреляцию с выходными данными модели, не имея при этом значительных вычислительных затрат. Сначала TeaCache модулирует шумные входные данные, используя встраивания временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходных данных модели. Затем TeaCache вводит стратегию переоценки для уточнения оцененных различий и использует их для указания кэширования выходных данных. Эксперименты показывают, что TeaCache достигает до 4,41x ускорения по сравнению с Open-Sora-Plan при незначительном (-0,07% Vbench score) ухудшении качества изображения.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

Погружение в документы: Последствия масштабирования вывода переоценщиков

Переранжировщики, обычно кросс-энкодеры, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, несмотря на свою высокую стоимость, считается, что переранжировщики более эффективны. Мы ставим под сомнение это предположение, измеряя эффективность переранжировщиков при полном извлечении документов, а не только при повторной оценке результатов первого этапа поиска. Наши эксперименты выявили неожиданную тенденцию: лучшие существующие переранжировщики дают убывающую отдачу при оценке все большего числа документов и фактически ухудшают качество после определенного предела. На самом деле, в данном контексте переранжировщики часто присваивают высокие оценки документам, которые не имеют ни лексического, ни семантического совпадения с запросом. Мы надеемся, что наши выводы стимулируют будущие исследования по улучшению переранжирования.

Китайский SimpleQA: Оценка фактичности больших языковых моделей

Новые бенчмарки для оценки крупных языковых моделей (LLM) важны для соответствия быстрому развитию этих моделей. В данной работе мы представляем Chinese SimpleQA — первый всеобъемлющий китайский бенчмарк для оценки способности языковых моделей отвечать на краткие вопросы с точки зрения фактичности. Chinese SimpleQA обладает пятью ключевыми характеристиками: китайский язык, разнообразие, высокое качество, статичность и простота оценки. В частности, во-первых, мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим всесторонний процесс контроля качества для обеспечения высокого качества вопросов и ответов, где эталонные ответы являются статичными и не могут изменяться со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень короткие, а процесс оценки прост благодаря использованию API OpenAI. На основе Chinese SimpleQA мы проводим комплексную оценку фактической способности существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA поможет разработчикам лучше понимать способности их моделей в китайском контексте и способствовать развитию базовых моделей.