本文来源于Energy & Environmental Materials,欢迎浏览!
论文信息
Sun, J., Chen, A., Guan, J., Han, Y., Liu, Y., Niu, X., He, M., Shi, L., Wang, J. and Zhang, X. (2024), Interpretable Machine Learning-Assisted High-Throughput Screening for Understanding NRR Electrocatalyst Performance Modulation between Active Center and C-N Coordination. Energy Environ. Mater. 2024. e12693.
研究亮点
1.将机器学习技术(ML)与高通量筛选相结合,通过特征工程和模型训练,揭示了NRR电催化剂性能调控的内在机制。
2. 研究中使用了SHAP分析来评估不同特征对催化剂性能的影响,并通过全局和局部特征解释,明确了关键因素与催化性能之间的关系。
3. 结合SHAP分析和电子结构计算,发现了具有低价电子数的活性中心与合适的C-N配位(氮取代的中等比例)之间的协同效应具有较高的催化性能。
4. 考虑了多种采样方法和模型,以提高模型的准确性和泛化能力。
研究背景
研究背景主要集中在氮还原反应(NRR)电催化剂的性能调控。目前,研究现状表明,单原子催化剂的活性中心和配位环境是影响NRR性能的关键因素,但具体的作用机制和调控方法仍不明确。研究瓶颈在于传统高通量筛选策略只能区分催化剂的好坏,但是无法揭示催化剂性能的内在调控机制。
随着机器学习(ML)技术的快速发展,研究人员能够利用可解释的机器学习深入了解输入特征和预测之间的复杂关系,为从海量数据集中提取有价值的信息和解释催化性能带来了机会。然而,利用机器学习方法发掘影响催化性能的关键信息,仍然面临着一些挑战。一方面,机器学习模型往往缺乏透明度,表现得像“黑盒子”,很难理解其预测或决策背后的原因。因此,增强ML模型的可解释性以更好地理解催化剂的催化性能是一项重大挑战。另一方面,即使对于具有高模型性能的复杂性模型,模型可解释性与性能之间的负相关也限制了机器学习的可解释性。此外,由于高通量筛选计算中的数据不平衡(即合格和不合格的催化剂),它往往倾向于预测多数类,并且对少数类样本的泛化性能较差。因此,如何提高模型性能以确保一个ML模型的高可解释性仍然是另一个挑战。综上所述,迫切需要建立可解释性强且准确性高的机器学习模型,进而从高通量筛选结果中探索催化性能的调节机制。
文章简读
了解基本描述符与催化性能之间的关系,对指导高性能电化学催化剂的设计具有重要意义。然而,在广阔的催化剂空间中探索影响催化性能的关键因素仍然是人们面临的挑战。为了准确识别影响氮还原性能的因素,我们采用可解释机器学习(interpretable machine learning, ML)对高通量筛选结果进行分析,该方法同样适用于催化中的其他表面反应。为了阐明这一范例,我们从168种碳负载的候选催化剂中筛选出33种有前景的催化剂,即:由BC3单层负载的单原子催化剂(TM@VB/C-Nn= 0-3-BC3)。随后,采用混合采样方法和XGBoost模型对合格和不合格的催化剂进行分类。通过Shapley加性解释(SHAP)分析的特征解释,筛选出两个关键特征,即活性中心价电子数(Nv)和配位环境氮取代数(Nn)。结合SHAP分析和电子结构计算,具有低价电子数的活性中心与合适的C-N配位(氮取代的中等比例)之间的协同效应可以表现出较高的催化性能。最后预测了6种极限电位低于0.4 V的优良催化剂。本工作流程提供了一种合理的方法,可以从高通量筛选结果中获得催化性能的关键信息,从而设计出可应用于其他材料和反应的高效催化剂。
图文赏析
图1展示了催化剂空间设计过程和高通量筛选的流程。如图1a所示,建立催化剂的材料空间。基于BC3单层,考虑了2种缺陷方式、21种过渡金属取代方式,4种配位工程,构建了168种候选单原子催化剂。如图1b所示,制定了4步高通量筛选策略。从稳定性、氮气吸附、氮还原活性和选择性四个方面制定了6个筛选条件,满足所有条件的催化剂被标记为合格催化剂,否则为不合格催化剂。
图 1. a) 建立TM@VB/C-Nn-BC3催化剂空间的工作流程。绿色、棕色、藏蓝色和粉色的球分别代表B、C、N和TM原子。b)区分合格/不合格NRR催化剂的“四步”高通量筛选策略。
图2展示了高通量筛选的具体过程。如图2a-b所示,从稳定性的角度,通过结合能(Eb)和结合能(Eb)与内聚能(Ec)之差(ΔE)进行第一步筛选。如图2c-f所示,从氮气吸附的角度,通过氮气吸附的吉布斯自由能进行第二步筛选。如图2g所示,从氮还原活性的角度,通过第一步质子化和最后一步质子化的自由能变化进行第三步筛选。如图2h所示,从氮还原选择性的角度,通过比较氮气吸附能和*H的吸附能进行第四步筛选。最终,33种催化剂被标记为合格催化剂,303种不合格催化剂。
图 2. a) 所有TM@VB/C-Nn-BC3催化剂的结合能(Eb)和b)结合能(Eb)与内聚能(Ec)之差(ΔE)的热图。290种具有c) end-on和d)side-on构型的TM@VB-Nn-BC3催化剂和e) end-on和f) side-on构型的TM@VC-Nn-BC3催化剂上吸附的*N2的吉布斯自由能变化G(*N2)。g) 173种TM@VB/C-Nn-BC3催化剂上的第一步质子化ΔG(*N2→*N2H)和最后一步质子化ΔG(*NH2→*NH3)的吉布斯自由能变化的散点图。h) 46种TM@VB/C-Nn-BC3催化剂上Eads(*H)和Eads(*N2)的比较。
图3展示了特征设计的过程和后续机器学习流程。如图3a所示,将催化剂的结构划分为活性中心、配位环境、次近邻区域和衬底区域,并且基于基本的原子特征,设计了6种基本特征。如图3b所示,制定了后续探索催化起源的机器学习工作流程。主要包括样本不均衡的处理、模型训练、模型评估、模型选择、打破下黑匣子限制和DFT验证。
图 3. a) 活动区域划分与属性表示特征工程。b) 探索催化起源的机器学习工作流程。
图4展示了高准确性机器学习模型的训练和选择的过程。如图4b所示,利用准确率accuracy、精确率precision、召回率recall和F1分数4个指标对比了4种不同采样方式(不采样、下采样、上采样和混合采样)的差异,结果表明混合采样效果最佳。如图4d所示,根据F1分数和AUC值两个指标对比了决策树、随机森林、XGBoost算法的差异,结果表明XGBoost算法的性能最佳。
图 4.a) 6个特征之间的相关热图。b) 在4种采样方法下,XGBoost模型的十折交叉验证的平均accuracy、precision、recall和F1分数。c)采用十折交叉验证的混合采样方法得到XGBoost模型的ROC曲线和AUC值。d)使用十折交叉验证的决策树、随机森林和XGBoost ML模型的平均F1分数和AUC值。
图5展示了利用SHAP分析方法探索发掘影响催化性能的关键因素的过程。如图5d-e所示,具有低价电子数的活性中心与合适的C-N配位(氮取代的中等比例)之间的协同效应具有较高的催化性能。
图5. a) 336个样本的6个特征的SHAP值热图,336个样品的总SHAP值曲线根据基值(0.093)代表合格催化剂和不合格催化剂。b)六个特征的gain value和SHAP值表明了它们的特征重要性。c) ML模型的SHAP总结图。每个点代表每种催化剂,其颜色代表相应特征的值。d)价电子数的SHAP值(Nv)和e)氮取代分数(Nn)的SHAP依赖图的小提琴图。小提琴图的左侧蓝色部分代表合格催化剂的密度分布,右侧红色部分代表不合格催化剂。
期刊信息
Energy & Environmental Materials (EEM) 是由郑州大学与Wiley合作出版的国际期刊,旨在为材料、化学、物理、医学及工程等多学科及交叉学科的研究者提供交流平台,激发新火花、提出新概念、发展新技术、推进新政策,共同致力于清洁、环境友好的能源材料研发。
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!