Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "sampling"

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текст-в-изображение (T2I) часто включает в себя инвертирование изображения в соответствующую карту шума. Однако только инверсия обычно недостаточна для получения удовлетворительных результатов, и поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но их нельзя бесшовно переносить между архитектурами моделей. Здесь мы представляем FlowEdit, метод редактирования на основе текста для предварительно обученных моделей T2I потока, который не требует инверсии, оптимизации и является независимым от модели. Наш метод строит ОДУ, которая напрямую отображает между исходными и целевыми распределениями (соответствующими исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход инверсии. Это приводит к результатам, соответствующим современным стандартам, как мы иллюстрируем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.

Несоответствия в Моделях Консистенции: Лучшее Решение ODE Не Обязательно Улучшает Качество Генерации

Хотя модели диффузии могут генерировать образцы поразительно высокого качества, их ограничивает дорогостоящая итеративная процедура выборки. Модели согласованности (CMs) недавно появились как перспективный метод дистилляции моделей диффузии, снижая стоимость выборки за счет генерации высококачественных образцов всего за несколько итераций. Цель дистилляции моделей согласованности заключается в решении обыкновенного дифференциального уравнения (ОДУ) потока вероятности, определенного существующей моделью диффузии. CMs не обучаются напрямую для минимизации ошибки по отношению к решателю ОДУ, вместо этого они используют более вычислительно эффективную целевую функцию. Чтобы изучить, насколько эффективно CMs решают ОДУ потока вероятности, и как влияет любая вызванная ошибка на качество генерируемых образцов, мы представляем Direct CMs, которые напрямую минимизируют эту ошибку. Интересно, что мы обнаружили, что Direct CMs уменьшают ошибку решения ОДУ по сравнению с CMs, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно CMs работают так хорошо изначально. Полный код доступен по адресу: https://github.com/layer6ai-labs/direct-cms.

OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор

Методы редактирования изображений на основе инструкций показали значительный потенциал, обучая модели диффузии на автоматически синтезированных или вручную аннотированных парах изображений для редактирования. Однако эти методы всё ещё далеки от практического применения в реальной жизни. Мы выделяем три основных вызова, которые способствуют этому разрыву. Во-первых, существующие модели обладают ограниченными навыками редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов, что связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одной низкой разрешенностью и фиксированным соотношением сторон, что ограничивает универсальность для обработки реальных сценариев использования. В данной статье мы представляем \omniedit, который является всесильным редактором, способным обрабатывать семь различных задач редактирования изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырёх частей: (1) \omniedit обучается с использованием супервизии от семи различных специализированных моделей, чтобы обеспечить охват задач. (2) Мы используем важностное выборочное обучение на основе оценок, предоставляемых крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) Мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования. (4) Мы предоставляем изображения с различными соотношениями сторон, чтобы наша модель могла обрабатывать любые изображения из реального мира. Мы создали тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для покрытия различных задач. Как автоматическая оценка, так и оценка людьми показывают, что \omniedit значительно превосходит все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/.

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

Языковые модели как скрытые логики: Раскрытие латентных возможностей рассуждений с помощью самооценки

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности, но всё ещё испытывают трудности с задачами сложного рассуждения, требующими нескольких шагов. Хотя методы, основанные на подсказках, такие как Цепочка мыслей (CoT), могут улучшить способности LLM к рассуждению во время вывода, оптимизация способностей к рассуждению во время обучения остаётся сложной задачей. Мы представляем Оптимизацию латентного рассуждения (LaTRO), принципиальную структуру, которая формулирует рассуждение как выборку из латентного распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений без необходимости внешней обратной связи или моделей вознаграждения. Мы проверили LaTRO на экспериментах с наборами данных GSM8K и ARC-Challenge, используя несколько архитектур моделей. На GSM8K, LaTRO улучшает нулевой точность на 12.5% по сравнению с базовыми моделями и на 9.6% по сравнению с надзорной настройкой для моделей Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты указывают на то, что предобученные LLM обладают скрытыми способностями к рассуждению, которые можно раскрыть и улучшить с помощью нашего предложенного подхода к оптимизации в рамках самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.