Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В данной статье мы представляем RAG, метод генерации изображений по тексту с учетом региональных описаний для точного компоновки макета. Региональное подсказывание или композитная генерация, позволяющая точный пространственный контроль, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако, предыдущие методы либо вводят дополнительные обучаемые модули, что ограничивает их применение только к определенным моделям, либо манипулируют картами оценок внутри слоев перекрестного внимания с помощью масок внимания, что приводит к ограниченной силе контроля при увеличении числа регионов. Чтобы справиться с этими ограничениями, мы разделяем процесс многорегиональной генерации на две подзадачи: создание отдельных регионов (Региональная Жесткая Привязка), что гарантирует правильное выполнение регионального запроса, и общую детальную доработку (Региональная Мягкая Доработка) регионов, которая игнорирует визуальные границы и усиливает взаимодействие между соседними регионами. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные неудовлетворительные регионы предыдущей генерации, оставляя все остальные регионы неизменными, без необходимости использовать дополнительные модели для дорисовки. Наш подход не требует настройки и может быть применен к другим системам как улучшение следования запросу. Количественные и качественные эксперименты показывают, что RAG превосходит предыдущие методы без настройки по привязке атрибутов и отношениям объектов.

Гауссиан Энисинг: Интерактивная генерация 3D с помощью точечного облака и латентной диффузии

В то время как создание трехмерного контента значительно продвинулось, существующие методы все еще сталкиваются с проблемами, связанными с форматами ввода, дизайном латентного пространства и представлениями вывода. В данной статье представлена новая 3D генеративная структура, которая решает эти проблемы, предлагая масштабируемое, высококачественное 3D-генерация с интерактивным латентным пространством, структурированным как облако точек. Наша структура использует вариационный автокодировщик (VAE) с многовидовыми позированными RGB-D (глубина)-N (нормали) визуализациями в качестве входных данных, применяя уникальный дизайн латентного пространства, который сохраняет информацию о 3D-форме, и включает каскадную модель диффузии латентного пространства для улучшения разделения формы и текстуры. Предлагаемый метод, GaussianAnything, поддерживает многомодальное условное 3D-генерация, позволяя использовать в качестве входных данных облака точек, подписи и изображения с одной или нескольких точек зрения. Особенно стоит отметить, что новое латентное пространство естественно обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование, учитывающее 3D. Экспериментальные результаты показывают эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в текстовой, так и в изображения-условной 3D-генерации.

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

Рассвет GUI-агентов: Предварительное исследование с использованием Claude 3.5 Computer Use

Вот перевод текста на русский язык: --- Недавно выпущенная модель, Claude 3.5 Computer Use, выделяется как первая модель искусственного интеллекта на передовой, предоставляющая возможность использования компьютера в публичной бета-версии в качестве агента графического интерфейса пользователя (GUI). Будучи ранней бета-версией, её способность функционировать в реальном и сложном мире остается неизведанной. В рамках данного кейс-стади для исследования возможностей Claude 3.5 Computer Use, мы собрали и организовали набор тщательно разработанных задач, охватывающих различные области и программное обеспечение. Наблюдения из этих случаев демонстрируют беспрецедентную способность Claude 3.5 Computer Use к преобразованию языка в действия на рабочем столе от начала до конца. Вместе с этим исследованием мы предоставляем готовую к использованию платформу агента для развертывания моделей автоматизации GUI на основе API с легкостью внедрения. Наши кейс-стади направлены на демонстрацию основных возможностей и ограничений Claude 3.5 Computer Use с детальным анализом, а также на выявление вопросов, связанных с планированием, действием и критикой, которые необходимо учитывать для будущего улучшения. Мы надеемся, что это предварительное исследование вдохновит будущие исследования в сообществе агентов GUI. Все тестовые случаи, описанные в статье, можно попробовать через проект: https://github.com/showlab/computer_use_ootb.

Как Чтение Манги Может Помочь Видео-Моделям Понимать Время

Видео Большие Языковые Модели (Vid-LLMs) достигли значительных успехов в понимании видеоконтента для диалога с вопросами и ответами. Однако они сталкиваются с трудностями при расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Временная Локализация Видео (VTG). Чтобы преодолеть этот разрыв, мы представляем Числовую Подсказку (NumPro), новаторский метод, который позволяет Vid-LLMs соединять визуальное понимание с временной локализацией, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: перелистывание страниц манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно улучшает производительность VTG ведущих Vid-LLMs без дополнительных вычислительных затрат. Более того, доработка на наборе данных, усиленном NumPro, устанавливает новый стандарт для VTG, превосходя предыдущие лучшие методы на 6.9% по mIoU для извлечения моментов и на 8.5% по mAP для обнаружения выделенных моментов. Код будет доступен по адресу https://github.com/yongliang-wu/NumPro.

МАРС: Развязывание силы снижения дисперсии для обучения больших моделей

Обучение глубоких нейронных сетей, а в последнее время и крупных моделей, требует эффективных и масштабируемых оптимизаторов. Адаптивные алгоритмы градиентного спуска, такие как Adam, AdamW и их вариации, играют ключевую роль в этой задаче. Несмотря на разработку множества алгоритмов снижения дисперсии за последнее десятилетие, направленных на ускорение стохастической оптимизации как в выпуклых, так и в невыпуклых условиях, снижение дисперсии не получило широкого распространения при обучении глубоких нейронных сетей или крупных языковых моделей. В результате этот подход остается менее популярным в современном ИИ. В данной статье, чтобы раскрыть потенциал снижения дисперсии для эффективного обучения крупных моделей, мы предлагаем единую оптимизационную структуру MARS (Make vAriance Reduction Shine), которая объединяет методы предобусловленного градиента и снижение дисперсии с помощью техники масштабированного стохастического рекурсивного импульса. В рамках нашего подхода мы представляем три варианта MARS, которые используют обновления градиентов, предобусловленные на основе AdamW, Lion и Shampoo соответственно. Мы также проводим связь между нашими алгоритмами и существующими оптимизаторами. Экспериментальные результаты по обучению моделей GPT-2 показывают, что MARS значительно превосходит AdamW.

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.