华南理工大学JMCC：用于预测钙钛矿特性的高度通用且准确的机器学习方法- X-MOL资讯

当前位置： X-MOL首页 › 行业资讯 › 华南理工大学JMCC：用于预测钙钛矿特性的高度通用且准确的机器学习方法

华南理工大学JMCC：用于预测钙钛矿特性的高度通用且准确的机器学习方法

作者：X-MOL 2024-07-27

带隙是钙钛矿材料在光伏应用领域中最重要的基本性质之一，为了获得未知材料的带隙，可以通过紫外-可见漫反射光谱（UV-Vis）或光致发光（PL）X射线光电子能谱（XPS）等实验来估计。这些实验需要巨大且昂贵的设备。选择用DFT计算是一种成本更低且更快的方法，尽管如此，使用局域密度近似（LDA）或广义梯度近似（GGA）的方法会导致计算的带隙偏低。GW算法可以精确计算材料的带隙，相应的也更为昂贵且耗时。总之精确的带隙不能通过一个简单的方法来完成，因此带隙估计仍然是如今所面临的重大挑战。

华南理工大学发光材料与器件国家重点实验室薛启帆（点击查看介绍）团队提出了一种机器学习方法，可以在误差允许的范围内快速预测钙钛矿材料的带隙，将大大加快对光吸收材料的研究。一个包含3720个ABX₃型钙钛矿以及2660个A₂B(I)B(II)X₆型双钙钛矿的数据库被用于训练模型，包含它们的带隙以及形成能信息。所有的数据均取自Materials Project数据集。用Matminer python包生成近300个描述符。再经过缺失值处理、稳定性筛选以及标准化处理后带入到XGBoost等六个机器学习模型中进行10折交叉验证，最有效的模型 XGBoost 表现出显着的 R2 系数 0.873 和 0.5868 eV 的均方根误差（RMSE）。最后进行了SHAP（SHapley Additive exPlanation）分析，以确定最有影响力的描述符。研究结果表明，较高的形成能、相当比例的过渡金属和大量的d轨道价电子有助于窄带隙钙钛矿的形成。相反，元素之间的大量f轨道电子和电负性差异往往会导致宽带隙钙钛矿。这种综合分析不仅提供了对影响钙钛矿材料带隙的基本因素的见解，还强调了机器学习在加速材料研究方面的潜力。

文4-1.png

图1. 该工作的完整流程。包括数据收集；数据清洗（稳定性筛选、缺失值处理以及数据预处理等）；模型训练（线性回归、支持向量回归、决策树、随机森林、多层感知机和极限梯度提升）；特征工程优化以及SHAP可解性分析五个过程

文4-2.jpg

图2. 数据收集和预处理过程。所有样本均来自可公开访问的数据库Material Project。所提供的信息包括材料的各个方面，包括其带隙、形成能和结构信息。使用pymatge从材料项目（MP）中共获得了3720个ABX₃型钙钛矿结构和2660个双钙钛矿结构。再使用Matminer生成特征；填补缺失值；计算钙钛矿容忍因子和八面体因子；最后进行稳定性筛选得到最终数据

图3a-b显示了所有数据的分布，红框代表经过稳定性筛选后的钙钛矿。

文4-3.jpg

图3. 钙钛矿的分布数据，（a）单钙钛矿（b）双钙钛矿公差因子与八面体因子的分布关系，颜色为函数 (μ+t)^η;（c）、（d）、（e）、（f）为筛选后单钙钛矿和双钙钛矿的公差因子、八面体因子、(μ+t)^η和带隙的分布。

采用不同的模型训练结果均有差距，但无论是数据是但钙钛矿还是双钙钛矿，无论预测的是形成能还是带隙，XGBoost均表现出了最优的预测效果。

文4-4.jpg

图4. 模型训练结果（a）ABX₃型钙钛矿和A₂B(I)B(II)X₆型钙钛矿数据集，用于地层能量训练结果;（b） ABX₃型钙钛矿和A₂B(I)B(II)X₆型钙钛矿数据集，用于带隙训练结果;（c）合并数据集与可形成性的训练结果;（d）合并数据集与带隙的训练结果

特征工程通过不断删除对模型贡献较低的特征来减小过拟合的风险。优化后三个模型的表现效果能进一步提高。

文4-5.jpg

文4-6.jpg

图5. 特征工程（a）RFR、XGBoost和MLPR三种模型经过特征工程处理模型的影响;（b）XGBoost 模型训练 R2 随特征数量而变化;（c）MLPR 模型训练 R2 随特征数量的变化而变化; （d）RFR 模型训练的 R2 随特征数量的变化;（e） XGB&RFR&MLPR 拟合趋势图;（f）XGB 拟合趋势图;（g）RFR拟合趋势图;（h）MLPR拟合趋势图

文4-7.jpg

图6. 无地层带隙模型与添加地层能的带隙模型比较

添加地层能后的带隙模型训练结果。

文4-8.png

在特征中引入形成能可以进一步提高模型预测带隙的准确度，即使使用预测的形成能仍能略微提高模型表现效果。

文4-9.jpg

图7.（a）使用SHAP和基于最佳带隙模型计算的特征重要性;（b）XGBoost回归汇总图，横坐标表示SHAP值，每个点为一个样本，红色表示特征值，蓝色越大，特征值越小;（c）单个样品的shap值，图中样品为CsSnI₃。

SHAP表明形成能与带隙高度相关，且较高的形成能带隙更有可能偏窄。

文4-10.jpg

图8. ML模型预测的带隙与实际带隙的关系，以及DFT计算的带隙与实际带隙的关系

机器学习预测结果虽不如DFT计算的结果准确，但考虑到其预测几乎在一瞬间完成，在进行大量材料带隙的高通量计算时，机器学习是具有巨大潜力的。

总结与展望

本工作合并了从材料项目中获得的ABX₃型钙钛矿和A₂B(I)B(II)X₆型双钙钛矿数据，并在缺失值处理和稳定性筛选后将它们引入机器学习模型。XGBoost模型在预测生成能方面表现最出色，R2值为0.948，RMSE值为0.2052 eV/原子。同样，预测的带隙显示R2值为0.8407，RMSE值为0.6571 eV。当将地层能的预测结果作为特征纳入带隙模型时，作者观察到R2值增加到0.8496，RMSE值下降到0.6386。随后，当将预测的地层能代入实际地层能时，模型的R2值进一步提高到0.873，RMSE下降到0.5868eV。Shap的可解释性分析表明，较大的生成能、更高比例的过渡金属、d轨道中更多的价电子以及更大的B位点电负性往往会导致更窄的带隙。相反，较高的 f 电子数和元件之间的大电负性差异会导致更宽的带隙。因此，当探索新的钙钛矿材料时，可以更多地使用聚焦组成元素的这些特性，降低随机实验和DFT高通量计算的成本，这与材料基因组计划加速材料选择和发现的目的一致。

原文（扫描或长按二维码，识别后直达原文页面，或点此查看原文）：

文4-91.png