Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "collaboration"

GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

Модели генерации текста в видео продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамических сцен на основе составных текстовых запросов, таких как связывание атрибутов для нескольких объектов, временная динамика, связанная с разными объектами, и взаимодействие между объектами. Наша основная мотивация заключается в том, что сложные задачи можно разложить на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта в сложных целях. Мы предлагаем GenMAC, итеративную многоагентную структуру, которая позволяет составлять текстовую генерацию видео. Совместный рабочий процесс включает три этапа: Дизайн, Генерация и Повторный дизайн, с итеративным циклом между этапами Генерации и Повторного дизайна для постепенной проверки и уточнения созданных видео. Этап Повторного дизайна является самым сложным, его цель - проверить созданные видео, предложить исправления и переработать текстовые запросы, макеты кадра и масштабы руководства для следующей итерации генерации. Чтобы избежать галлюцинации одного агента MLLM, мы разбиваем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложений, агент исправлений и агент структурирования выходных данных. Более того, для решения разнообразных сценариев составной текстовой генерации видео мы разрабатываем механизм самостоятельного маршрутизации для адаптивного выбора подходящего агента исправлений из набора агентов исправлений, каждый из которых специализирован для одного сценария. Обширные эксперименты демонстрируют эффективность GenMAC, достигая лучших результатов в области составной текстовой генерации видео.

MALT: Улучшение рассуждений с помощью обучения многоагентных LLM

Включение эффективного сотрудничества между LLM является важным шагом к разработке автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы с единой моделью, где люди критикуют и уточняют их результаты, потенциал совместно обученных коллаборативных моделей остается в значительной степени неизученным. Несмотря на многообещающие результаты в многоагентной коммуникации и дебатах, мало что было сделано для обучения моделей работать вместе над задачами. В этой статье мы представляем первый шаг к "Обучению многоагентных LLM" (MALT) по решению задач на рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, которым назначены специализированные роли: генератор, проверяющий и модель уточнения, которые итеративно решают задачи. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию распределения кредитов, основанную на вознаграждениях, ориентированных на общий результат. Это позволяет нашей настройке после обучения использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на примерах MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительных улучшений в 14,14%, 7,12% и 9,40% соответственно по сравнению с той же базовой моделью. Это демонстрирует ранний прогресс в многоагентных кооперативных способностях для выполнения математических задач и вопросов общего смысла. В более общем плане, наша работа предоставляет конкретное направление для исследований в области подходов к обучению многоагентных LLM.

Эффективное декодирование в визуальном авто-регрессионном моделировании: концепция Collaborative Decoding

В стремительно развивающейся области генерации изображений моделирование визуальной авто-регрессии (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего масштаба. Эта парадигма предлагает значительные улучшения в эффективности, масштабируемости и обобщении в условиях нулевых данных. Тем не менее, врожденная грубая к тонкой природе VAR приводит к удлиненной последовательности токенов, что приводит к непомерному потреблению памяти и вычислительным излишком. Чтобы решить эти узкие места, мы предлагаем совместное декодирование (CoDe), новую эффективную стратегию декодирования, разработанную для VAR-структуры. CoDe использует два критически важных наблюдения: значительно сниженные требования к параметрам на больших масштабах и эксклюзивные паттерны генерации на различных масштабах. Основываясь на этих идеях, мы разделяем процесс многомасштабного вывода на бесшовное сотрудничество между большой моделью и маленькой моделью. Большая модель выступает в роли «черновика», специализируясь на генерации низкочастотного контента на меньших масштабах, в то время как меньшая модель выступает в роли «усовершенствователя», сосредотачиваясь исключительно на предсказании высокочастотных деталей на больших масштабах. Это сотрудничество обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает увеличения скорости в 1.7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с лишь незначительным увеличением FID с 1.95 до 1.98. Когда шаги черновика еще больше сокращаются, CoDe может достичь впечатляющего коэффициента ускорения 2.9, достигая 41 изображения в секунду при разрешении 256x256 на одном GPU NVIDIA 4090, сохраняя при этом достойный FID 2.27. Код доступен по адресу https://github.com/czg1225/CoDe