当前位置 : X-MOL首页行业资讯 › 华南理工大学JMCC:用于预测钙钛矿特性的高度通用且准确的机器学习方法

华南理工大学JMCC:用于预测钙钛矿特性的高度通用且准确的机器学习方法

带隙是钙钛矿材料在光伏应用领域中最重要的基本性质之一,为了获得未知材料的带隙,可以通过紫外-可见漫反射光谱(UV-Vis)或光致发光(PL)X射线光电子能谱(XPS)等实验来估计。这些实验需要巨大且昂贵的设备。选择用DFT计算是一种成本更低且更快的方法,尽管如此,使用局域密度近似(LDA)或广义梯度近似(GGA)的方法会导致计算的带隙偏低。GW算法可以精确计算材料的带隙,相应的也更为昂贵且耗时。总之精确的带隙不能通过一个简单的方法来完成,因此带隙估计仍然是如今所面临的重大挑战。


华南理工大学发光材料与器件国家重点实验室薛启帆点击查看介绍)团队提出了一种机器学习方法,可以在误差允许的范围内快速预测钙钛矿材料的带隙,将大大加快对光吸收材料的研究。一个包含3720个ABX3型钙钛矿以及2660个A2B(I)B(II)X6型双钙钛矿的数据库被用于训练模型,包含它们的带隙以及形成能信息。所有的数据均取自Materials Project数据集。用Matminer python包生成近300个描述符。再经过缺失值处理、稳定性筛选以及标准化处理后带入到XGBoost等六个机器学习模型中进行10折交叉验证,最有效的模型 XGBoost 表现出显着的 R2 系数 0.873 和 0.5868 eV 的均方根误差 (RMSE)。最后进行了SHAP(SHapley Additive exPlanation)分析,以确定最有影响力的描述符。研究结果表明,较高的形成能、相当比例的过渡金属和大量的d轨道价电子有助于窄带隙钙钛矿的形成。相反,元素之间的大量f轨道电子和电负性差异往往会导致宽带隙钙钛矿。这种综合分析不仅提供了对影响钙钛矿材料带隙的基本因素的见解,还强调了机器学习在加速材料研究方面的潜力。

图1. 该工作的完整流程。包括数据收集;数据清洗(稳定性筛选、缺失值处理以及数据预处理等);模型训练(线性回归、支持向量回归、决策树、随机森林、多层感知机和极限梯度提升);特征工程优化以及SHAP可解性分析五个过程

图2. 数据收集和预处理过程。所有样本均来自可公开访问的数据库Material Project。所提供的信息包括材料的各个方面,包括其带隙、形成能和结构信息。使用pymatge从材料项目(MP)中共获得了3720个ABX3型钙钛矿结构和2660个双钙钛矿结构。再使用Matminer生成特征;填补缺失值;计算钙钛矿容忍因子和八面体因子;最后进行稳定性筛选得到最终数据


图3a-b显示了所有数据的分布,红框代表经过稳定性筛选后的钙钛矿。

图3. 钙钛矿的分布数据,(a)单钙钛矿(b)双钙钛矿公差因子与八面体因子的分布关系,颜色为函数 (μ+t)η;(c)、(d)、(e)、(f)为筛选后单钙钛矿和双钙钛矿的公差因子、八面体因子、(μ+t)η和带隙的分布。


采用不同的模型训练结果均有差距,但无论是数据是但钙钛矿还是双钙钛矿,无论预测的是形成能还是带隙,XGBoost均表现出了最优的预测效果。

图4. 模型训练结果 (a)ABX3型钙钛矿和A2B(I)B(II)X6型钙钛矿数据集,用于地层能量训练结果;(b) ABX3型钙钛矿和A2B(I)B(II)X6型钙钛矿数据集,用于带隙训练结果;(c)合并数据集与可形成性的训练结果;(d)合并数据集与带隙的训练结果


特征工程通过不断删除对模型贡献较低的特征来减小过拟合的风险。优化后三个模型的表现效果能进一步提高。

图5. 特征工程(a)RFR、XGBoost和MLPR三种模型经过特征工程处理模型的影响;(b)XGBoost 模型训练 R2 随特征数量而变化;(c)MLPR 模型训练 R2 随特征数量的变化而变化; (d)RFR 模型训练的 R2 随特征数量的变化;(e) XGB&RFR&MLPR 拟合趋势图;(f)XGB 拟合趋势图;(g)RFR拟合趋势图;(h)MLPR拟合趋势图


图6. 无地层带隙模型与添加地层能的带隙模型比较


添加地层能后的带隙模型训练结果。


在特征中引入形成能可以进一步提高模型预测带隙的准确度,即使使用预测的形成能仍能略微提高模型表现效果。

图7.(a)使用SHAP和基于最佳带隙模型计算的特征重要性;(b)XGBoost回归汇总图,横坐标表示SHAP值,每个点为一个样本,红色表示特征值,蓝色越大,特征值越小;(c)单个样品的shap值,图中样品为CsSnI3


SHAP表明形成能与带隙高度相关,且较高的形成能带隙更有可能偏窄。

图8. ML模型预测的带隙与实际带隙的关系,以及DFT计算的带隙与实际带隙的关系


机器学习预测结果虽不如DFT计算的结果准确,但考虑到其预测几乎在一瞬间完成,在进行大量材料带隙的高通量计算时,机器学习是具有巨大潜力的。


总结与展望


本工作合并了从材料项目中获得的ABX3型钙钛矿和A2B(I)B(II)X6型双钙钛矿数据,并在缺失值处理和稳定性筛选后将它们引入机器学习模型。XGBoost模型在预测生成能方面表现最出色,R2值为0.948,RMSE值为0.2052 eV/原子。同样,预测的带隙显示R2值为0.8407,RMSE值为0.6571 eV。当将地层能的预测结果作为特征纳入带隙模型时,作者观察到R2值增加到0.8496,RMSE值下降到0.6386。随后,当将预测的地层能代入实际地层能时,模型的R2值进一步提高到0.873,RMSE下降到0.5868eV。Shap的可解释性分析表明,较大的生成能、更高比例的过渡金属、d轨道中更多的价电子以及更大的B位点电负性往往会导致更窄的带隙。相反,较高的 f 电子数和元件之间的大电负性差异会导致更宽的带隙。因此,当探索新的钙钛矿材料时,可以更多地使用聚焦组成元素的这些特性,降低随机实验和DFT高通量计算的成本,这与材料基因组计划加速材料选择和发现的目的一致。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Highly versatile and accurate machine learning methods for predicting perovskite properties

Ziming Chen, Jing Wang, Canjie Li, Baiquan Liu, Dongxiang Luo, Yonggang Min, Nianqing Fu, Qifan Xue

J. Mater. Chem. C2024, DOI: 10.1039/D4TC02268H


导师介绍

薛启帆

https://www.x-mol.com/university/faculty/188071 


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
英语语言编辑 翻译加编辑
专注于基础生命科学与临床研究的交叉领域
遥感数据采集
数字地球
开学添书香,满额有好礼
加速出版服务
编辑润色服务全线九折优惠
传播分子、细胞和发育生物学领域的重大发现
环境管理资源效率浪费最小化
先进材料生物材料
聚焦分子细胞和生物体生物学
“转化老年科学”.正在征稿
化学工程
wiley你是哪种学术人格
细胞生物学
100+材料学期刊
人工智能新刊
图书出版流程
征集眼内治疗给药新技术
英语语言编辑服务
快速找到合适的投稿机会
动态系统的数学与计算机建模
热点论文一站获取
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
中科大
华盛顿
上海交大
德国
美国
中山大学
西湖大学
药物所
普渡大学
东方理工
ACS材料视界
down
wechat
bug