当前位置: 首页 > news >正文

【分子材料发现】——GAP:催化过程中吸附构型的多模态语言和图学习(数据集处理详解)(二)

Multimodal Language and Graph Learning of Adsorption Configuration in Catalysis

https://arxiv.org/abs/2401.07408

Paper Data: https://doi.org/10.6084/m9.figshare.27208356.v2
Figure 1
Figure 2

1 Dataset

CatBERTa训练的文本字符串输入来源于Open Catalyst 2020 (OC20,只关注IS2RE/IS2RS任务的数据)和Open Catalyst 2020 Dense (OC20-Dense)数据集中的松弛结构(relaxed structure)。对于涉及CatBERTa的训练和CrystaLLM微调、训练和验证都是使用来自DFT放松结构的文本进行的。

具体来说:

  • 对CatBERTa模型进行了两种类型的训练:图辅助预训练和下游能量预测任务的训练。都需要将松弛结构转换为字符串表示,然后其用于训练和验证过程。
       对图辅助预训练效果的评估是通过对从ML放松结构生成的字符串进行预测实现的。<ML松弛结构及其DFT计算的能量labels由Open Catalyst Project Challenge 2023提供。在OC20-Dense数据集中OOD splits使用GemNet-OC、SCN和eSCN进行ML松弛,分别得到11508、11630和11755个松弛结构。为了得到有效的DFT能量,对ML松弛结构进行了DFT单点计算。>(<>部分为OC20-Dense中对数据的处理)。
       GAP使用大约920个具有有效DFT能量的ML松弛结构来评估模型的准确性(即下游能量预测任务)。通过计算使用GemNet-OC、SCN和eSCN放松的结构预测的标准差,GAP量化了模型预测的不确定性。如Table S5所示。对于embedding和attenetion score的分析,GAP使用了所有的ML松弛结构,不管这些结构是否验证了DFT能量(即图辅助预训练)。
    Table S5
  • 对于CrystaLLM微调:为放松的结构创建CIFs,然后使用它们对CrystaLLM进行微调。
       从OC20-Dense训练集中选择了adsorbate和catalyst对的子集,其中包含235个独特的adsorbate-catalyst对,只提取这些对中的adsorbate、catalyst和Miller指数信息,将它们用作微调后的CrystaLLM的初始提示。
    Table S3

2 Data Pattern

string generation
   输入至CatBERTa的字符串格式由三部分组成:adsorbate、catalytic surface和adsorption configuration。

  • adsorbate
    只包含元素符号。
  • catalyst
    催化剂的元素组成及Miller指数。
  • adsorption configuration
    包括初级相互作用原子与次级相互作用原子。将与adsorbate直接相连的原子称为初级相互作用原子(primary interacting atoms),初级相互作用原子在表面上相邻近的原子为次级相互作用原子(secondary interacting atoms)。

3 Pre-Process

http://www.lryc.cn/news/500994.html

相关文章:

  • SpringBoot开发过程中经常遇到问题解决方案分享
  • AR眼镜_消费级工业AR智能眼镜主板硬件解决方案
  • Springboot 核心注解
  • Nacos集群搭建【Oracle作外部数据源】
  • 云轴科技ZStack出席中国电信国际EMCP平台香港发布会,持续推动海外合作
  • 爬虫自动化之drissionpage+SwitchyOmega实现随时切换代理ip
  • docker安装kettle(PDI)并实现web访问
  • [软件工程]十.可靠性工程(reliable engineering)
  • 【Makefile】编译日志之输出重定向符号 >
  • linux之less
  • 算法-字符串-165.比较版本号
  • List与Set、数组与ArrayList、ArrayList与LinkedList的区别
  • 如何在 Odoo18 视图中添加关联数据看板按钮 | 免费开源ERP实施诀窍
  • Linux下mysql环境的搭建
  • 视觉语言模型 Qwen2-VL
  • 浅谈新能源汽车感应钥匙一键启动的步骤和特点
  • 鸿蒙ArkTS语言基础语法详解
  • H5游戏出海如何获得更多增长机会?
  • Cmake+基础命令
  • python数据分析之爬虫基础:requests详解
  • PHP期末复习(通过30道填空题梳理知识点)
  • PostgreSQL 安装部署系列:使用YUM 方式在Centos 7.9 安装指定 PostgreSQL -15版本数据库
  • 知识图谱8:深度学习各种小模型
  • 为什么 JavaScript 中的 `new` 运算符报错?
  • Tomcat,javaweb, servlet , springBoot
  • 使用Kimi开发自己的问答应用
  • TypeScript进阶
  • jenkins邮件的配置详解
  • 小皮面板(PHPSTUDY)配置多个域名或IP
  • 【大语言模型】LangChain LCEL 表达式语言