Ай Дайджест - категория graph

Лучшее из двух миров: преимущества гибридных моделей граф-секвенция

Современные модели последовательностей (например, трансформеры, линейные РНС и т.д.) вышли на передовые позиции в последних фреймворках глубокого обучения, в основном благодаря своей эффективности, способности к представлению данных и/или возможности захвата дальних зависимостей. Применение этих моделей последовательностей к данным с графовой структурой недавно стало популярным как альтернатива Сетям с Передачей Сообщений (MPNN). Однако, существует недостаток общих основ относительно того, что делает модель последовательности графа хорошей, а также математического описания преимуществ и недостатков использования различных моделей последовательностей для обучения на графах. В этом направлении мы сначала представляем Модель Последовательностей Графов (GSM), единую платформу для адаптации моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное Кодирование, которое кодирует локальные окрестности вокруг каждой вершины; и (3) Глобальное Кодирование, которое использует масштабируемую модель последовательности для захвата дальних зависимостей в последовательностях. Эта платформа позволяет нам понимать, оценивать и сравнивать мощность различных базовых моделей последовательностей в задачах с графами. Наши теоретические оценки представительной способности трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач графов показывают, что существуют как положительные, так и отрицательные стороны для обоих типов моделей. Опираясь на это наблюдение, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм Иерархического Аффинного Кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают дизайн GSM++, показывая, что GSM++ превосходит базовые модели в большинстве тестов на эталонных примерах.

2024-11-26sequence graph tokenization

EdgeCape: Революционный подход к категорийно-независимой оценке поз

Категория-агностическая оценка позы (CAPE) позволяет локализовать ключевые точки на различных категориях объектов с помощью одной модели, используя одну или несколько аннотированных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов графа, а не изолированных точек) помогает справляться с перекрытиями и разрывами симметрии. Однако эти методы предполагают статичный граф позы с равновесными рёбрами, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения, предсказывая веса рёбер графа, что оптимизирует локализацию. Для дальнейшего использования структурных предпосылок мы предлагаем интеграцию марковского структурного смещения, которое модулирует взаимодействие само-внимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оценка на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, показала, что EdgeCape достигает результатов на уровне лучших в мире в 1-шотовом режиме и лидирует среди методов схожих размеров в 5-шотовом режиме, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.

2024-11-26optimization benchmark self-attention

LLaMo: Large Language Model-based Molecular Graph Assistant

Большие языковые модели (LLMs) продемонстрировали выдающиеся способности к обобщению и выполнению инструкций благодаря настройке на инструкции. Прогресс в области LLM и настройки на инструкции привел к развитию Больших моделей языка и зрения (LVLMs). Однако возможности LLM и настройки на инструкции были менее изучены в молекулярной области. Поэтому мы предлагаем LLaMo: ассистент молекулярных графов на основе большой языковой модели, который представляет собой обученную от начала до конца большую молекулярную графо-языковую модель. Для сближения различий между языковыми и графовыми модальностями мы представляем многоуровневый графовый проектор, который преобразует представления графов в токены графов, абстрагируя выходные представления каждого слоя GNN и мотивные представления с помощью механизма перекрестного внимания. Мы также вводим данные инструкций для молекулярных графов, генерируемые машинами, для настройки большой молекулярной графо-языковой модели для общего понимания молекул и языка. Наши обширные эксперименты показывают, что LLaMo демонстрирует наилучшие результаты на разнообразных задачах, таких как генерация описания молекул, прогнозирование свойств и предсказание названий по ИЮПАК. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

2024-11-06tuning vision molecular