近年来,材料科学正迈入一个由人工智能(AI)和自动化技术驱动的新纪元。AI与高通量合成的结合,为材料逆向设计提供了强大的工具,极大加速了新型材料的发现进程。在近期发表于 Science 的研究中,德国赫姆霍兹研究所Christoph J. Brabec和武建昌联合厦门大学王露遥、卡尔斯鲁厄理工学院 Pascal Friederich和韩国蔚山国立科学技术院Sang Il Seok开发了一种闭环自动化工作流程,首次实现了针对光电应用的有机半导体逆向设计,通过大数据和机器学习识别出决定有机半导体光电性能的关键因素,并将器件性能提升至26.2%的光电转换效率(PCE),这是该领域的重要突破。
图1. 闭环材料设计示意图
背景:高通量有机合成与表征
此前,该团队已在 Journal of the American Chemical Society 上报道了一套高通量合成与表征平台(如图2所示),该平台能够快速制备、纯化和表征分子库(J. Am. Chem. Soc., 2023, 145, 16517–16525)。在这一基础上,通过结合理论计算与自动化实验,实现了分子的高纯度和高重复性,并在数周内建立了包含125个分子的材料库,涵盖了丰富的光电性质。这一成果为后续AI驱动的材料设计奠定了坚实的实验数据基础。
图2. 高通量有机合成平台
闭环材料发现工作流程
闭环流程将高通量合成、高通量表征与机器学习(ML)模型相结合,形成自主学习的材料开发系统(如图1与图3所示)。具体包括五个关键步骤:(1)虚拟数据库创建与筛选:基于结构多样性原则,从百万级分子库中筛选候选分子。(2)分子描述符计算:通过密度泛函理论(DFT)计算,提取分子的电子与几何特性。(3)高通量有机合成与表征:利用自动化平台快速制备分子,并进行电学与光学性能测试。(4)器件性能表征:测量器件的J-V曲线、PCE等关键参数。(5)机器学习训练与优化:基于实验数据训练贝叶斯优化模型,迭代选择高性能分子。这一闭环流程可在每轮迭代中高效反馈与优化,逐步实现材料性能的提升。
图3. 针对钙钛矿太阳能电池中空穴传输层的逆向分子设计
机器学习模型的构建与优化
研究团队采用高效的分子描述符集,包括:(1)分子统计属性:如原子种类、芳香键数量、功能基团等。(2)理论计算特性:如分子轨道能级(HOMO和LUMO)、溶解度对数(LogP)、偶极矩和旋转常数等。通过10折交叉验证,测试了多种ML模型,包括随机森林、线性回归、神经网络和高斯过程回归(GPR)等。最终,GPR因其不确定性量化能力被选为贝叶斯优化的代理模型(BO)。这一模型能够在“探索-利用”模式中高效识别高性能分子(图4)。
图4. 基于实验数据和计算机描述符的模型训练
高性能分子发现与验证
通过两轮闭环优化,研究团队证明ML模型能够有效预测新型空穴传输材料。与初始数据库相比,新一轮筛选出的分子表现出更高的PCE值,显著超越了随机筛选和传统网格搜索方法。具体而言,实验器件的光电转换效率从初始的8.5%逐步提高至最高的26.2%,这一成果验证了ML模型在材料设计中的强大潜力(图5)。
图5. 新合成的分子和用于迭代的实验数据
模型分析及分子设计规则
研究团队致力于通过机器学习(ML)模型的分析,深入挖掘影响器件性能的关键物理参数。该团队从训练后的 ML 模型中提取了与光电转换效率(PCE)相关的分子描述符,并评估了它们对模型预测的贡献(如图5A所示)。HOMO 能级、叔胺结构的存在、HOMO/LUMO 能级差以及纯度被识别为影响性能预测和分子发现的核心特征。
为了进一步识别决定性特征,研究团队采用递归特征机(RFM)对特征重要性进行分析。基于结构指纹的 RFM 模型在测试集上的 R² 值约为 0.5。纯度、HOMO 能级、HOMO/LUMO 能级差以及叔胺结构的存在被验证为模型关注的核心特征。通过留一法交叉验证,模型在预测未知分子性能时依然表现出良好的泛化能力(R² 值约为 0.3)。
为了构建更具可解释性的模型,研究团队使用贪婪搜索算法筛选最优特征子集,并训练了线性回归模型。线性回归模型选择了包括芳香键数目、分子氮含量、纯度、旋转常数等在内的八个核心特征,最终在测试集上实现了 R² 为 0.46 的性能。
研究团队还探索了通过扩展特征输入来提升模型预测性能的可能性。实验增加了润湿性、光致发光量子产率(PLQY)以及时间分辨光致发光(TRPL)等特征。基于多任务高斯过程回归模型(MTGPR)的分析显示,PCE 与开路电压(Voc)、短路电流(Jsc)以及填充因子(FF)之间存在预期相关性,但扩展特征未显著提升 PCE 的预测精度。
通过上述研究,团队确认了机器学习模型在新型分子发现中的潜力,并揭示了关键分子特征对性能预测的重要性。
研究团队进一步从化学语言的角度出发,对机器学习(ML)结果进行了解释,以帮助化学家和材料科学家更清晰地理解这些发现,并深入开展基于这些特征的分子设计。(1)HOMO 和叔胺的重要性。HOMO 对分子间界面的电荷提取至关重要,这一点已被广泛认可。叔胺结构的显著性往往被忽略,而研究发现它主要涉及三苯胺(TPA),由于其低电离势,显著提升了分子 HOMO 能级。(2)分子分类与性能模式。根据 TPA 的位置,所有分子被分为三类:类型 I(无 TPA):HOMO 范围 5.1-6.1 eV,对应 PCE 为 5%-14%;类型 II(TPA 位于分子外围):HOMO 范围 4.3-5.2 eV,对应 PCE 为 13%-20%;类型 III(TPA 位于分子中心):HOMO 范围 4.9-5.7 eV,对应 PCE 为 15%-21%。这种分类不仅揭示了HOMO与PCE 之间的关系,还将候选分子数量从 9.6 x 105 缩减至 5.8x 103。(3)HOMO/LUMO 能级差与偶极矩的作用。TPA 与受体的结合确保了合适的能隙,异原子进一步增强了钙钛矿的钝化作用。通过这一步骤,候选分子数量进一步减少至 4.6 x 102。
研究团队引入拓扑极性表面积(TPSA)作为构建块极性和吸电子能力的粗略指标,便于通过 PubChem 等数据库快速查询,无需进行繁琐的密度泛函理论(DFT)计算。
精细调控与分子性能优化:(1)基于TPA+受体的调控。分子性能可通过边缘取向等结构特性进行优化,从而促进钝化和电荷传输。对比 5 种 B 位基团的组合,研究发现微弱的对称性破缺(如 A770 基团)有助于提升器件性能。(2)进一步缩减候选分子数量。通过 TPA 和 B 位基团的细致优化,候选分子数量从 102 减少到 101,进入高通量合成的可操作范围。
图6. 模型分析和由机器学习结果指导的分子设计规则
展望:数据驱动的材料科学未来
高通量合成和AI的结合不仅提升了实验效率,更改变了材料设计的范式。未来,相关研究将进一步扩展到复杂功能性分子设计,例如探索抗辐射分子材料以应对太空极端环境。这一闭环材料发现工作流展示了“实验+数据+AI”的强大潜力,为材料科学领域带来了前所未有的机遇与创新方向。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Inverse design workflow discovers hole-transport materials tailored for perovskite solar cells
Jianchang Wu, Luca Torresi, ManMan Hu, Patrick Reiser, Jiyun Zhang, Juan S. Rocha-Ortiz, Luyao Wang, Zhiqiang Xie, Kaicheng Zhang, Byung-wook Park, Anastasia Barabash, Yicheng Zhao, Junsheng Luo, Yunuo Wang, Larry Lüer, Lin-Long Deng, Jens A. Hauch, Dirk M. Guldi, M. Eugenia Pérez-Ojeda, Sang Il Seok, Pascal Friederich, Christoph J. Brabec
Science, 2024, 386, 1256-1264, DOI: 10.1126/science.ads0901
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!