当前位置 : X-MOL首页行业资讯 › 北航孙志梅团队机器学习方向IM综述:可解释符号回归探索材料数据背后的数学表达式

北航孙志梅团队机器学习方向IM综述:可解释符号回归探索材料数据背后的数学表达式

本文来源于Interdisciplinary Materials, 欢迎浏览!


论文信息

1731732118279011173.png

G. Wang, E. Wang, Z. Li, J. Zhou, Z. Sun. Exploring the mathematic equations behind the materials science data using interpretable symbolic regression. Interdiscip. Mater. 2024; 3(5). doi: 10.1002/idm2.12180


摘要

符号回归 (SR) 方法能够从海量数据集中探索数学表达式,以构建可解释机器学习模型,具有将“黑箱”机器学习方法转化为材料科学研究中物理和化学可解释表达式的潜力。在本综述中,北京航空航天大学孙志梅团队总结了符号回归方法的发展历程和研究现状,重点阐述了符号回归方法的基础理论、训练流程、现有的方法和代码,以及在材料学不同问题中的应用案例。更为重要的是,展望了符号回归方法在材料设计和研究中需要克服的挑战和未来机遇,包括图形处理单元加速方法和迁移学习算法、表达式准确性与复杂性之间的权衡、基于大语言模型的物理或化学可解释性,以及多模态符号回归方法等。


主要内容

1. 背景介绍

随着科学研究范式从理论模拟向数据和人工智能驱动的研发模式转变,材料领域产生的泽字节(ZB)级别的数据量预估呈现每年40%的增长趋势。基于海量数据,探索输入材料描述符和目标属性之间的关系,并构建准确且可扩展的属性预测模型或逆向材料设计模型是新材料设计研发的趋势。然而这些模型通常基于数学统计和概率原理,缺乏直接的物理或化学解释性,通常被视为“黑箱”模型。由于模型决策过程的不透明,削弱了模型预测结果的鲁棒性和可靠性,导致研究人员难以完全理解模型的预测运行机理。


符号回归(SR)作为可解释机器学习方法之一,旨在打开机器学习模型的“黑盒”,揭示其模型内部工作机制,提供对模型决策过程的洞察。与传统机器学习方法不同,符号回归不仅能够迭代优化模型的参数,而且通过自主搜索最佳模型结构和形式,探索被传统机器学习方法忽略的数据间的潜在关系。


本综述重点介绍了符号回归的基础原理、代码实现、材料应用和未来前景。首先,介绍了与符号回归相关的表征学习和生成模型,以及符号回归的训练拟合方法。其次,概述了基于不同机器学习方法的符号回归算法、基准数据集和可执行代码。然后,讨论了符号回归在材料特征(描述符)选择、材料性质预测和原子相互作用势中的应用。最后,展望了符号回归当前的挑战和未来的机遇。


2. 符号回归发展历程


1.png

图1 2000-2022年,Web of Science数据库中收录的符号回归相关的SCI论文发表数量。


首先调研了从2000年以来发表的与符号回归相关的研究论文数量及其在材料科学领域和计算机领域的增长趋势,如图1所示。回顾了符号回归发展过程中相关的标志性事件,包括1990年前提出的遗传算法、2000年左右提出的机器学习方法和最近提出的具有物理意义的AI Feynman方法等。进一步给出了数学符号在机器学习中的二叉树表现形式,如图2(A)所示。其中每个蓝色圈代表输入(或者树叶),每个黄色圈代表对输入参数的符号运算(或者节点)。最终阐述了符号回归模型的构建流程图,如图2(B)所示。


2.png

图2(A)符号回归二进制树表达形式及(B)构建符号回归模型的流程图。


3. 符号回归方法和实现代码

针对不同的符号回归模型构建算法,本文将符号回归方法分为遗传算法符号回归(GPSR),传统机器学习符号回归(TMLSR),深度学习符号回归(DLSR),注意力机制符号回归(TSR)和图神经网络符号回归(GSR)。每种方法的关键流程示意图如图3所示,对应的实现软件和可执行代码如论文中表1所示。进一步,介绍了用于评估符号回归模型精度常用的数据集,包括AI Feynman数据集,Chaotic 数据集,SRBench数据集等。


3.png

图3 五种不同符号回归方法的示意图。(A)遗传算法符号回归。(B)传统机器学习符号回归。(C)深度学习符号回归。(D)注意力机制符号回归。(E)图神经网络符号回归。


4. 符号回归方法在材料领域的应用

本文主要介绍了符号回归方法在材料特征描述符重要性排序,材料性能预测(结构稳定性、机械性能、带隙预测、热导率预测、热电性能,电池电极材料,催化性能等)和构建简单体系原子间相互作用势等三个领域的应用。以符号回归探究材料机械性能物理表达式应用为例详细阐述了符号回归方法在解决材料问题中的应用流程,如图4所示。

4.png

图4 从实验收集的数据中构建具有物理意义符号回归模型的方法。(A)构建流程图。(B)计算机中的运算过程。(C)符号回归模型的表达形式。


5. 总结与展望

本文总结展望了符号回归方法在GPU加速方法、迁移学习、如何权衡模型复杂度和预测精度、基于大语言模型(LLMs)的物理化学可解释性探索、多模态符号回归方法等方面的进展与挑战。


期刊简介

1731732347372006235.png

Interdisciplinary Materials(交叉学科材料)是由Wiley出版集团与武汉理工大学联合创办的开放获取式高水平学术期刊。主编为张清杰院士和傅正义院士。30位国际杰出学者和45位两院院士作为期刊的编辑委员会委员。Interdisciplinary Materials 是国际上聚焦材料与其它学科交叉前沿发起出版的首本“交叉学科材料”领域高水平期刊,旨在发表材料学科与物理、化学、数学、力学、生物、能源、环境、信息等学科交叉研究的最新成果。


点击投稿

如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
经济学SSCI期刊
英语语言编辑翻译加编辑新
加速出版服务新
1212购书送好礼
Springer旗下全新催化方向高质新刊
动物学生物学
系统生物学合成生物学
专注于基础生命科学与临床研究的交叉领域
传播分子、细胞和发育生物学领域的重大发现
聚焦分子细胞和生物体生物学
图书出版流程
快速找到合适的投稿机会
热点论文一站获取
定位全球科研英才
中国图象图形学学会合作刊
浙大
日本
北大
岭南大学
深圳湾
南开大学
清华大学
新加坡
北京大学
南科大
ACS材料视界
down
wechat
bug