蛋白质在生命中扮演着重要角色,其功能与其不断演化的动态结构密切相关。虽然近年来以AlphaFold系列为代表的人工智能模型在解析蛋白质的静态结构方面取得了巨大进展,但却无法用于研究蛋白质动态结构的演化过程,实时了解这些动态过程对于更深入地了解蛋白质功能机制至关重要。红外 (IR) 光谱作为分子的“光学指纹”,能够提供分子结构变化的详细信息,在蛋白质动力学研究中发挥着关键作用 (Nature 2020, 577, 52),特别是Amide II区域(1500-1600 cm-1),对于研究蛋白质二级结构及其动力学行为发挥着补充且不可或缺的作用 (Proc. Natl. Acad. Sci. U. S. A. 2004, 101, 506)。此外,Amide II振动对β-折叠寡聚体和纤维的形成具有独特的敏感性(J. Am. Chem. Soc. 2019, 141, 1941; Sci. Adv. 2018, 4, eaao6718; Proc. Natl. Acad. Sci. U.S.A. 2009, 106, 17751),可为许多慢性疾病如糖尿病和阿尔茨海默病相关的分子病理研究提供关键的蛋白质结构信息。
虽然Amide II带光谱虽然能测量蛋白质分子动态演变,但其实验光谱信号必须要经过理论模拟的解读和比对,才能揭示对应的结构信息。然而蛋白质分子含有成千上万原子,环境涨落对结构的影响显著,结构自由度极大,这使得用量子化学方法计算蛋白质分子光谱极其昂贵。因此迄今为止,尚无一种方法能够高效准确地模拟完全真实蛋白质的Amide II光谱,这严重限制了其在蛋白质动态结构研究中的实际应用。
图1. 基于人工智能的Amide II光谱研究蛋白质氢键动力学
为解决这一问题,近日安徽大学叶盛教授、孙长银教授与中国科学技术大学江俊教授、张国桢副研究员等合作,利用人工智能机器学习技术结合分子动力学模拟和量子化学理论计算,通过结合物理信息的分子描述符从而建立了可解释人工智能模型,可用于高效准确模拟任意蛋白的Amide II光谱,并且与传统的量子化学计算方法相比速度提高了至少五个数量级。更重要的是,所建立的机器学习模型具有优秀的可迁移性,可以预测训练集范围以外的蛋白质光谱响应,模拟不同状态下的信号变化,从而分辨蛋白质的二级结构、考察溶液pH条件的影响、实时跟踪蛋白质折叠等。相关研究成果发表在《美国化学会志》(Journal of the American Chemical Society)上。
图2. 分而治之的机器学习方法模拟蛋白质Amide II红外光谱
为了实现光谱的机器学习快速模拟,研究人员分别以N-甲基乙酰胺分子(NMA)分子和甘氨酸二肽(GLDP)分子为肽键和二肽分子模型,训练了各自的机器学习模型来分别预测肽键振动性质和二肽的振动耦合性质,同时采用偶极-偶极相互作用公式来估算非邻近肽键之间的振动耦合系数,构建了蛋白质体系的振动激子哈密顿量,进而计算得到蛋白质的红外光谱。
随后,研究人员选取了12中不同类型的蛋白质,即不同比例的α-helix和β-sheet,模拟了它们的Amide II红外光谱并与实验光谱进行了比较,来验证所开发的机器学习模型的准确性。总体来说,ML模型预测的光谱与实验光谱有着非常高的吻合度,成功地再现了实验光谱的基本特征(主峰和线形)。同时得益于机器学习的加速能力,还可以模拟1000个蛋白质动力学快照来计算光谱,从而捕获每种蛋白质的动态特征。
图3. 机器学习模拟蛋白质Amide II红外光谱
蛋白质的结构受其周围环境的显著影响。例如,某些疾病的发展会改变感兴趣蛋白质的局部pH条件,破坏氢键导致结构变化。研究人员使用所发展的Amide II 光谱理论模拟工具研究了pH条件对蛋白质结构的影响。以鸡蛋清溶菌酶蛋白为例,在四种不同pH条件(1.2、2.5、5.3、8.0)下模拟了其Amide II红外光谱,通过分析RMSD和氢键变化,研究人员观察到不同pH条件下蛋白质结构动态呈现出明显差异。从机器学习的模拟结果中可以看出,随着pH的不断升高,蛋白质内部的平均氢键数量增加,这导致Amide II光谱的主峰位置从1542 cm-1蓝移到1552 cm-1,同时实验上也观测到了主峰的蓝移现象,这证明了所发展的机器学习模型能够准确捕捉氢键变化,对外部pH环境的变化具有良好的可迁移性。
图4. 机器学习模拟不同pH环境下的Amide II 红外光谱
监测蛋白质动态折叠过程的氢键变化对于理解其折叠机制至关重要。通过所发展的Amide II光谱理论工具,研究人员将其用于研究Trp-cage蛋白的折叠过程。Trp-cage蛋白包含了20个残基,被广泛选取用作理解蛋白质折叠过程的模型系统。这里研究人员使用了包含100,000个分子动力学构型的Trp-cage的折叠轨迹,折叠过程可分为五个阶段:从未折叠的链开始(S1),逐渐过渡到保持螺旋结构的部分折叠状态(S25),通过富含螺旋形成的快速折叠阶段(S50),最终形成完全折叠的螺旋系统,类似于一个笼子(S75和S100)。如图4所示,研究人员对每个阶段都计算了100个分子动力学快照以得到包含环境涨落的Amide II红外光谱。随着折叠过程的进行,伴随着氢键平均数的增加,Amide II光谱的主峰经历了从1530 cm-1到1544 cm-1的10 cm-1蓝移,表明机器学习方法所预测的光谱能够快速地与蛋白质折叠阶段中氢键动态变化相对应,促进实验谱学对蛋白质氢键动力学的研究。
图5. 机器学习模拟蛋白质折叠过程中的Amide II 红外光谱
综上,这项研究将先进的人工智能机器学习技术与量子化学理论方法相结合,体现了"AI for Science"的新兴研究范式,为蛋白质的氢键动力学研究提供了坚实的理论和技术支持,本项工作得到了国家自然科学基金重点、青年项目,安徽省高校协同创新以及优青项目的大力资助,安徽大学叶盛教授、孙长银教授以及中国科学技术大学江俊教授、张国桢副研究员分别为第一以及通讯作者。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Artificial Intelligence-based Amide-II Infrared Spectroscopy Simulation for Monitoring Protein Hydrogen Bonding Dynamics
Sheng Ye*, Kai Zhong, Yan Huang, Guozhen Zhang*, Changyin Sun*, and Jun Jiang*
J. Am. Chem. Soc., 2024, DOI: 10.1021/jacs.3c12258
通讯作者信息
叶盛,安徽大学人工智能学院教授,硕士研究生导师, 中科院百篇优博获得者,安徽省优青,合肥市市级领军人才。获中国科学院优秀博士学位论文、中科院院长奖特别奖、中国化学会京博科技奖优秀博士论文奖、中国科学技术大学优秀博士毕业论文、中国科学技术大学优秀毕业生、博士研究生国家奖学金等荣誉奖励。主要聚焦于人工智能在分子光谱领域的交叉研究,发展了融合人工智能与大数据技术的生物大分子光谱模拟方法, 近五年以第一或通讯作者(含共同)身份发表学术论文十余篇,包括国际知名期刊PNAS 2篇, J. Am. Chem. Soc. 4篇, J. Phys. Chem. Lett. 2篇,并且多项研究工作被Science编辑专文推荐点评。所开发的蛋白质光谱人工智能模拟软件目前已在中国科学技术大学、南京大学、南欣医药研究院公司、美国加州大学尔湾分校、英国诺丁汉大学、英国杜伦大学、意大利INFN国家实验室等十几家单位应用。
张国桢,中国科学技术大学微尺度物质科学国家研究中心副研究员,从事理论与计算化学工作,近五年主要研究量子功能材料应用于能量和物质转化的若干科学问题(如单原子催化剂的位点协同效应,分子激发态系间窜越,光电转化过程的电荷分离)和数据驱动的谱学模拟,致力于理解能量与物质转化过程蕴含的物理化学机制和构效关系,以第一或通讯作者(含共同)身份发表学术论文共计36篇,包括重要学术期刊PNAS 1篇,Sci. Adv. 1篇,Nat. Commun. 2 篇,JACS 4篇,Angew. Chem. 2篇,Adv. Mater. 1篇,Nano. Lett. 2篇,JPC Lett. 13篇。
孙长银,安徽大学副校长,中国自动化学会会士,东南大学首席教授,2011年国家杰出青年基金获得者,2019年“自主无人系统智能协同控制理论及应用”国家自然科学基金委创新研究群体负责人,科技部首批“人工智能专项”重大项目负责人,国家“万人计划”科技创新领军人才。国家自然基金委信息三处(含自动化学科与人工智能学科)十四五和中长期规划负责人。曾获国家自然科学奖二等奖1项、教育部自然科学一等奖2项,杨嘉墀科技奖一等奖、WCICA谈自忠理论论文奖、CAA自然科学一等奖、CAA科技进步一等奖、IEEE期刊优秀论文奖,陈翰馥奖等。目前任中国自动化学会常务理事、副秘书长、人工智能与机器人教育专业委员会主任,中国人工智能学会常务理事、智能控制与智能管理专业委员会主任。
江俊,中国科学技术大学讲席教授,获批自然科学基金委杰出青年基金、中科院机器科学家青年团队负责人。发展融合人工智能与大数据技术的量子化学模拟方法,研制“理实交融”的机器化学家平台,探索物理化学应用领域中的实际问题(光电转化、功能材料、光化学等)。在国际知名SCI期刊如Nat. Energy, Nat. Synth. Nat. Commun., J. Am. Chem. Soc., PNAS, Angew. Chem. Int. Ed., Phys. Rev. Lett., Adv. Mater.等发表论文180余篇。在量子器件和新材料领域获专利10余项,主持开发6个计算软件包在国内外研究机构和产业应用,为企业创造产值近亿元。担任Elsevier智能领域旗舰期刊 AI Chemistry创刊主编。获中国化学会唐敖庆青年理论化学家奖、日本化学会亚洲杰出讲座奖。
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!