Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "encoding"

VidTok: Современный видеотокенизатор для генерации и понимания видео

Кодирование видеоконтента в компактные латентные токены стало фундаментальным шагом в генерации и понимании видео, что обусловлено необходимостью устранения присущей избыточности в представлениях на уровне пикселей. В результате растет спрос на высокоэффективные, открытые видео-токенизаторы по мере того, как исследования, ориентированные на видео, приобретают популярность. Мы представляем VidTok, универсальный видео токенизатор, который демонстрирует передовые показатели как в непрерывной, так и в дискретной токенизации. VidTok включает в себя несколько ключевых усовершенствований по сравнению с существующими подходами: 1) архитектура модели, такая как свертки и модули вверх/вниз; 2) для устранения нестабильности обучения и коллапса кодовой книги, обычно связанных с традиционной векторной кватизацией (VQ), мы интегрируем конечную скалярную кватизацию (FSQ) в дискретную видео токенизацию; 3) улучшенные стратегии обучения, включая двухступенчатый процесс обучения и использование сниженных частот кадров. Интегрируя эти усовершенствования, VidTok достигает значительных улучшений по сравнению с существующими методами, демонстрируя превосходную производительность по множеству метрик, включая PSNR, SSIM, LPIPS и FVD, в стандартизированных условиях оценки.

Эмердженция абстракций: механизм кодирования и декодирования концептов для обучения в контексте в трансформерах

Люди дистиллируют сложные переживания в основные абстракции, которые позволяют быстрому обучению и адаптации. Аналогично, авторегрессивные трансформеры демонстрируют адаптивное обучение через обучение в контексте (ICL), что ставит вопрос о том, как. В этой статье мы предлагаем механизм кодирования-декодирования концепций, чтобы объяснить ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения малого трансформера и сообщаем о сопутствующем возникновении кодирования и декодирования концепций. Поскольку модель учится кодировать разные латентные концепции (например, "Поиск первого существительного в предложении.") в разные, отделимые представления, она одновременно строит условные алгоритмы декодирования и улучшает свою производительность ICL. Мы подтверждаем наличие этого механизма на предобученных моделях различного масштаба (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Далее, через механистические интервенции и контролируемую тонкую настройку, мы демонстрируем, что качество кодирования концепции причинно связано и предсказуемо для производительности ICL. Наши эмпирические выводы проливают свет на лучшее понимание успеха и режима неудач больших языковых моделей через их представления.

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

Лучшее из двух миров: преимущества гибридных моделей граф-секвенция

Современные модели последовательностей (например, трансформеры, линейные РНС и т.д.) вышли на передовые позиции в последних фреймворках глубокого обучения, в основном благодаря своей эффективности, способности к представлению данных и/или возможности захвата дальних зависимостей. Применение этих моделей последовательностей к данным с графовой структурой недавно стало популярным как альтернатива Сетям с Передачей Сообщений (MPNN). Однако, существует недостаток общих основ относительно того, что делает модель последовательности графа хорошей, а также математического описания преимуществ и недостатков использования различных моделей последовательностей для обучения на графах. В этом направлении мы сначала представляем Модель Последовательностей Графов (GSM), единую платформу для адаптации моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное Кодирование, которое кодирует локальные окрестности вокруг каждой вершины; и (3) Глобальное Кодирование, которое использует масштабируемую модель последовательности для захвата дальних зависимостей в последовательностях. Эта платформа позволяет нам понимать, оценивать и сравнивать мощность различных базовых моделей последовательностей в задачах с графами. Наши теоретические оценки представительной способности трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач графов показывают, что существуют как положительные, так и отрицательные стороны для обоих типов моделей. Опираясь на это наблюдение, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм Иерархического Аффинного Кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают дизайн GSM++, показывая, что GSM++ превосходит базовые модели в большинстве тестов на эталонных примерах.

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.