Свежая выжимка ml и AI статей - каждый день
Молекулы являются основными единицами вещества, состоящими из атомов, связанных химическими связями. Они играют ключевую роль в различных химических и биологических процессах, включая реакции, передачу сигналов и поддержание структуры живых организмов. Изучение молекул и их свойств имеет важное значение для множества областей, включая фармакологию, сельское хозяйство, материаловедение и экологию. В последние годы большие языковые модели (LLMs) получили широкое распространение в задачах, связанных с молекулами, таких как предсказание свойств молекул на основе их представлений в виде SMILES и генерация молекул с заданными свойствами.
Однако между молекулами и их текстовыми описаниями существуют значительные проблемы с выравниванием. Современные методы обычно требуют дополнительной стадии выравнивания модальностей, что связано с нехваткой качественных пар молекул и описаний. Кроме того, существующие подходы часто рассматривают молекулу как общую строку SMILES или молекулярный граф, игнорируя важные подструктуры, что затрудняет объяснение результатов.
В данной статье мы представляем MolReFlect, новую методику, разработанную для точного выравнивания молекул и текстов. Она использует архитектуру "учитель-ученик" и включает три основных этапа: извлечение выравниваний без обучения, выборочное отражение в контексте и настройку молекул с использованием цепочки размышлений.
Существующие методы, такие как MolT5 и ICMA, пытаются устранить разрыв между молекулярными и естественными языковыми пространствами, но сталкиваются с проблемами, связанными с качеством выравниваний. Например, MolT5 предложил задачу перевода молекул в текст, используя набор данных ChEBI-20, содержащий пары представлений SMILES и их текстовых описаний. Однако многие из этих методов не учитывают тонкие выравнивания между подструктурами молекул и их описаниями.
Тонкие выравнивания имеют решающее значение для точного и объяснимого предсказания свойств молекул. Например, подструктуры, такие как функциональные группы, напрямую определяют характеристики молекул, описанные в текстах. Если LLM смогут распознавать эти паттерны, они смогут делать более точные предсказания. Однако, как показывает практика, мало кто из исследователей уделяет должное внимание уточнению гранулярности выравниваний между молекулярными подструктурами и соответствующими текстовыми описаниями.
MolReFlect представляет собой архитектуру "учитель-ученик", которая использует более крупную языковую модель в качестве учителя для генерации выравниваний, которые затем уточняются с помощью меньшей модели-ученика.
На первом этапе учительская LLM генерирует выравнивания в нулевом обучении, извлекая важные фразы из представлений SMILES или текстовых описаний молекул. Это происходит в нулевом обучении, что позволяет избежать необходимости в дополнительных размеченных данных. Учительская модель использует стратегии размышления для выделения критических фрагментов, которые затем связываются с соответствующими свойствами или подструктурами.
На втором этапе мы предлагаем стратегию, которая позволяет учительской модели самоотражаться на результатах извлечения выравниваний, используя примеры из контекста. Это позволяет улучшить качество выравниваний, поскольку учительская модель может переосмыслить свои ответы, основываясь на предыдущих результатах.
На последнем этапе происходит настройка модели-ученика на основе тонких выравниваний, предоставленных учителем. Мы используем формат цепочки размышлений, чтобы организовать примеры контекста, что способствует лучшему обучению и объяснению процесса перевода молекул в текст и наоборот.
Мы провели серию экспериментов на наборе данных ChEBI-20, чтобы оценить эффективность MolReFlect. Результаты показывают, что наш метод значительно превосходит существующие базовые модели в задачах Mol2Cap и Cap2Mol, достигая состояния наилучшего результата (SOTA) без необходимости в дополнительных модальностях или сложных структурах.
MolReFlect продемонстрировал превосходство по всем оценочным метрикам, включая BLEU и ROUGE. Например, в задаче Mol2Cap мы достигли BLEU-4 балла 0.608, что на 4.6% выше, чем у ICMA. В задаче Cap2Mol MolReFlect также показал лучшие результаты, достигая BLEU-4 балла 0.903 и 51% точного совпадения молекул.
Мы также провели анализ абляции, чтобы понять вклад каждого этапа в общую производительность. Результаты подтвердили, что тонкие выравнивания действительно улучшают производительность в задаче перевода молекул в текст.
В этой статье мы представили MolReFlect, инновационный подход к выравниванию молекул и текстов, который использует архитектуру "учитель-ученик" и включает три ключевых этапа: извлечение выравниваний без обучения, выборочное отражение в контексте и настройку молекул с использованием цепочки размышлений. Мы продемонстрировали, что MolReFlect значительно улучшает производительность LLM в задачах перевода молекул в текст и наоборот, а также способствует более объяснимым и точным предсказаниям.
Мы надеемся, что данное исследование вдохновит дальнейшие работы, сосредоточенные на гранулярности выравниваний между молекулами и текстами, что является многообещающим направлением в области химического машинного обучения.