Отчет о Результатах Второго Хакатона по Применению LLM в Материаловедении и Химии

Второй хакатон по применению крупных языковых моделей (LLM) для материаловедения и химии, состоявшийся 9 мая 2024 года, объединил участников из разных уголков мира, как в физическом, так и в виртуальном пространстве. Мероприятие включало в себя 34 команды, которые представили свои проекты, охватывающие семь ключевых областей применения LLM. В этом отчете мы рассмотрим основные направления работ, методологии, результаты и перспективы, обсуждаемые на хакатоне.

Ключевые Области Применения

Прогнозирование Свойств Молекул и Материалов: Использование LLM для предсказания химических и физических свойств молекул и материалов, особенно в условиях ограниченных данных.
Проектирование Молекул и Материалов: Создание новых молекул и материалов с заданными свойствами, включая пептиды, металл-органические каркасы (MOFs) и устойчивые строительные материалы.
Автоматизация и Новые Интерфейсы: Разработка интерфейсов на естественном языке и автоматизация научных задач для упрощения доступа к сложным инструментам.
Научная Коммуникация и Образование: Улучшение академического общения, автоматизация создания образовательного контента и облегчение обучения в области материаловедения и химии.
Управление и Автоматизация Исследовательских Данных: Оптимизация обработки, организации и анализа научных данных с помощью инструментов, основанных на LLM.
Генерация и Оценка Гипотез: Использование LLM для создания, оценки и верификации научных гипотез, часто сочетая несколько агентов ИИ и статистические методы.
Извлечение Знаний и Обоснованность: Извлечение структурированной информации из научной литературы и обоснованное рассуждение о концепциях материаловедения и химии с помощью графов знаний и мультимодальных подходов.

Примеры Проектов

1. Прогнозирование Свойств Молекул и Материалов

Команда Learning LOBSTERs: Интегрировала данные о связях в LLM для предсказания фононной плотности состояний (DOS) кристаллических структур, показав, что добавление информации о ковалентных связях улучшает точность прогнозирования.
Команда Liverpool Materials: Демонстрировала улучшение предсказания проводимости лития с помощью контекстуальной информации из литературы.

2. Проектирование Молекул и Материалов

MC-Peptide: Разработала рабочий процесс для проектирования макроциклических пептидов (MCPs) с улучшенной проницаемостью, используя LLM для автоматизации извлечения данных из литературы.
MOF Innovators: Использовала агента ИИ для оптимизации свойств металл-органических каркасов (MOFs) с помощью правил проектирования, извлеченных из литературы.

3. Автоматизация и Новые Интерфейсы

LangSim: Создала интерфейс на естественном языке для автоматизации расчета свойств материалов, таких как модуль упругости.
LLMicroscopilot: Разработала инструмент для автоматизации работы с микроскопами с помощью агентов LLM.

4. Научная Коммуникация и Образование

MaSTeA: Оценивала эффективность LLM как помощников в обучении материаловедению, тестируя их на различных типах вопросов.
LLMy Way: Автоматизировала создание академических презентаций из научных статей, адаптируя содержание под уровень аудитории и временные ограничения.

5. Управление и Автоматизация Исследовательских Данных

yeLLowhaMmer: Разработала мультимодального агента для управления исследовательскими данными, автоматизируя процессы в электронных лабораторных журналах (ELN) и системах управления лабораторной информацией (LIMS).

6. Генерация и Оценка Гипотез

Multi-Agent Hypothesis Generation: Использовала систему из нескольких специализированных агентов LLM для ускорения генерации и проверки научных гипотез.

7. Извлечение Знаний и Обоснованность

ChemQA: Создала многомодальный набор данных для вопросов и ответов в химии, подчеркивая важность комбинирования текстовых и визуальных данных для улучшения точности моделей.

Заключение

Хакатон продемонстрировал огромный потенциал LLM в различных аспектах материаловедения и химии, от предсказания свойств до автоматизации научных процессов. Участники успешно использовали LLM для решения конкретных задач, что подчеркивает их способность улучшать эффективность и креативность научных исследований. В будущем ожидается дальнейшее расширение применения LLM в этих областях, что будет способствовать ускорению научных открытий и инноваций.

Статья на arxiv Оригинал pdf extraction design prediction

Ай Дайджест