MolReFlect: В поисках точных соответствий между молекулами и текстами

Молекулы являются основными единицами вещества, состоящими из атомов, связанных химическими связями. Они играют ключевую роль в различных химических и биологических процессах, включая реакции, передачу сигналов и поддержание структуры живых организмов. Изучение молекул и их свойств имеет важное значение для множества областей, включая фармакологию, сельское хозяйство, материаловедение и экологию. В последние годы большие языковые модели (LLMs) получили широкое распространение в задачах, связанных с молекулами, таких как предсказание свойств молекул на основе их представлений в виде SMILES и генерация молекул с заданными свойствами.

Однако между молекулами и их текстовыми описаниями существуют значительные проблемы с выравниванием. Современные методы обычно требуют дополнительной стадии выравнивания модальностей, что связано с нехваткой качественных пар молекул и описаний. Кроме того, существующие подходы часто рассматривают молекулу как общую строку SMILES или молекулярный граф, игнорируя важные подструктуры, что затрудняет объяснение результатов.

В данной статье мы представляем MolReFlect, новую методику, разработанную для точного выравнивания молекул и текстов. Она использует архитектуру "учитель-ученик" и включает три основных этапа: извлечение выравниваний без обучения, выборочное отражение в контексте и настройку молекул с использованием цепочки размышлений.

Проблема выравнивания молекул и текстов

Текущие подходы

Существующие методы, такие как MolT5 и ICMA, пытаются устранить разрыв между молекулярными и естественными языковыми пространствами, но сталкиваются с проблемами, связанными с качеством выравниваний. Например, MolT5 предложил задачу перевода молекул в текст, используя набор данных ChEBI-20, содержащий пары представлений SMILES и их текстовых описаний. Однако многие из этих методов не учитывают тонкие выравнивания между подструктурами молекул и их описаниями.

Важность тонких выравниваний

Тонкие выравнивания имеют решающее значение для точного и объяснимого предсказания свойств молекул. Например, подструктуры, такие как функциональные группы, напрямую определяют характеристики молекул, описанные в текстах. Если LLM смогут распознавать эти паттерны, они смогут делать более точные предсказания. Однако, как показывает практика, мало кто из исследователей уделяет должное внимание уточнению гранулярности выравниваний между молекулярными подструктурами и соответствующими текстовыми описаниями.

MolReFlect: Архитектура и этапы

MolReFlect представляет собой архитектуру "учитель-ученик", которая использует более крупную языковую модель в качестве учителя для генерации выравниваний, которые затем уточняются с помощью меньшей модели-ученика.

Этап 1: Извлечение выравниваний без обучения

На первом этапе учительская LLM генерирует выравнивания в нулевом обучении, извлекая важные фразы из представлений SMILES или текстовых описаний молекул. Это происходит в нулевом обучении, что позволяет избежать необходимости в дополнительных размеченных данных. Учительская модель использует стратегии размышления для выделения критических фрагментов, которые затем связываются с соответствующими свойствами или подструктурами.

Этап 2: Выборочное отражение в контексте

На втором этапе мы предлагаем стратегию, которая позволяет учительской модели самоотражаться на результатах извлечения выравниваний, используя примеры из контекста. Это позволяет улучшить качество выравниваний, поскольку учительская модель может переосмыслить свои ответы, основываясь на предыдущих результатах.

Этап 3: Настройка молекул с использованием цепочки размышлений

На последнем этапе происходит настройка модели-ученика на основе тонких выравниваний, предоставленных учителем. Мы используем формат цепочки размышлений, чтобы организовать примеры контекста, что способствует лучшему обучению и объяснению процесса перевода молекул в текст и наоборот.

Экспериментальные результаты

Мы провели серию экспериментов на наборе данных ChEBI-20, чтобы оценить эффективность MolReFlect. Результаты показывают, что наш метод значительно превосходит существующие базовые модели в задачах Mol2Cap и Cap2Mol, достигая состояния наилучшего результата (SOTA) без необходимости в дополнительных модальностях или сложных структурах.

Сравнение с базовыми моделями

MolReFlect продемонстрировал превосходство по всем оценочным метрикам, включая BLEU и ROUGE. Например, в задаче Mol2Cap мы достигли BLEU-4 балла 0.608, что на 4.6% выше, чем у ICMA. В задаче Cap2Mol MolReFlect также показал лучшие результаты, достигая BLEU-4 балла 0.903 и 51% точного совпадения молекул.

Анализ абляции

Мы также провели анализ абляции, чтобы понять вклад каждого этапа в общую производительность. Результаты подтвердили, что тонкие выравнивания действительно улучшают производительность в задаче перевода молекул в текст.

Заключение

В этой статье мы представили MolReFlect, инновационный подход к выравниванию молекул и текстов, который использует архитектуру "учитель-ученик" и включает три ключевых этапа: извлечение выравниваний без обучения, выборочное отражение в контексте и настройку молекул с использованием цепочки размышлений. Мы продемонстрировали, что MolReFlect значительно улучшает производительность LLM в задачах перевода молекул в текст и наоборот, а также способствует более объяснимым и точным предсказаниям.

Мы надеемся, что данное исследование вдохновит дальнейшие работы, сосредоточенные на гранулярности выравниваний между молекулами и текстами, что является многообещающим направлением в области химического машинного обучения.

Статья на arxiv Оригинал pdf tuning context student

Ай Дайджест