液相色谱串联质谱(LC-MS/MS)分析技术得益于其高通量、高灵敏度等优点,目前已广泛用于代谢组学、蛋白质组学和其他大规模化学分析中。在液相色谱串联质谱分析中,谱图数据通常通过数据依赖性采集(DDA)模式获取。然而,由于质谱中用于质量筛选的四极杆分辨率较低,DDA模式采集的二级质谱谱图(MS/MS)通常含有杂质碎片离子,这些杂质离子的存在极大阻碍了对二级质谱谱图的分类、结构鉴定等进一步研究。
近日,英属哥伦比亚大学(The University of British Columbia)化学系还涛教授(点击查看介绍)课题组提出了一种基于机器学习的全自动鉴定杂质碎片离子的策略,MS2Purifier,可实现对液相色谱串联质谱采集的DDA数据集中二级质谱谱图的高效纯化。该研究结果发表在国际质谱权威杂志Journal of the American Society for Mass Spectrometry 上。文章第一作者为英属哥伦比亚大学博士研究生邢世沛,通讯作者为英属哥伦比亚大学还涛教授。
纯化代谢组学数据的重要性已经成为了代谢组学科研人员的共识。在过去的十几年中,大多数研究工作都是基于减少假阳性的代谢组学信号,以获取高置信度的(即对应于生物分子的)代谢分子信号。然而,相比于纯化代谢物分子信号,关于清洁二级质谱谱图方法的报道并不多,而且二级质谱谱图中杂质碎片离子的问题经常被忽视并且没有得到很好的研究。此外,尽管可以设置信噪比(S/N)或峰强度阈值来去除低丰度可疑峰或噪声峰,该策略却不适用于具有相似荷质比的化合物——杂质碎片离子的强度也可能很高(图1)。因此,开发一种可以识别液相色谱串联质谱数据中杂质碎片离子的方法对于纯化二级质谱谱图并获取高质量谱图数据至关重要。
图1. 化学标样分析中发现的相邻化学干扰导致的杂质碎片离子。
杂质碎片离子的独特之处是它们不必与目标前体离子共洗脱出来。遵循该原理,研究人员建立了一种新颖的分析工作流程(图2)以识别二级质谱谱图中可能存在的杂质碎片离子。在此工作流程中,通过在同一代谢组学样本的平行的数据依赖性采集的数据分析中检查其提取离子色谱,可以识别潜在的杂质碎片离子。由于真实碎片离子应该与其前体离子共洗脱,因而前体离子的一级质谱谱图提取离子色谱和碎片离子的二级质谱谱图提取离子色谱之间应有着很高的峰-峰相关系数(PPC)。相反,杂质碎片离子相对于前体离子的PPC分数则较低。
图2. 发现杂质碎片离子的工作流程。
简单来说,MS2Purifier借用数据非依赖性采集(DIA)模式下获取的数据(图3),可自动将DDA中二级质谱谱图杂质碎片离子分为三类:(1)溶剂杂质,(2)相邻化学干扰,(3)来自伪影噪声的未确定信号。MS2Purifier是一种高灵敏度、高特异性纯化数据依赖性采集二级质谱谱图的有效工具。
图3. MS2Purifier借用DIA数据对DDA数据中二级质谱谱图进行纯化。
MS2Purifier是在R语言环境中开发的,机器学习过程采用了随机森林(random forest)算法。二分类机器学习模型实现了对杂质碎片离子的鉴别,多分类机器学习模型实现了杂质碎片离子的具体分类。八百对前体离子-碎片离子通过人工检查判定其碎片离子属性,并进一步用于机器学习的训练数据。作为鉴定杂质离子的重要指标,峰-峰相关系数描述了该碎片离子和其对应的前体离子色谱图的相似度。此外,前体离子和碎片离子提取离子色谱图(EIC)的峰型也是机器学习模型的重要特征。两个模型分别用自主抽样法进行了交叉验证,二分类模型的ROC线下面积达到了0.98;多分类模型的曲线下面积分别是0.98、0.97和0.94。MS2Purifier的局限性在于它目前无法处理共洗脱的具有相似荷质比的前体离子产生的杂质碎片例子,并且这些杂质离子在MS2Purifier中可能被误归为真碎片离子(I类错误)。实际上,共洗脱问题在数据非依赖性采集数据的去卷积中仍然具有挑战性。这可能是未来开发更先进的杂质碎片离子去除算法的方向。
图4. (A) MS2Purifier中机器学习模型的训练及应用。(B) & (C) 二分类模型和多分类模型的受试者工作特征曲线(ROC)。
总而言之,该工作提供了一个研究基于数据非依赖性采集的液相色谱串联质谱分析中收集的二级质谱谱图中的杂质碎片离子的框架。研究人员进一步开发了生物信息学工具MS2Purifier,基于随机森林的机器学习算法可自动识别杂质离子。可以预见,MS2Purifier将会成为非靶向代谢组学数据的基本生物信息学工具,以消除二级质谱谱图中的假阳性碎片离子,从而提高谱图质量,用于对已知或未知代谢物小分子进行更可靠的结构鉴定。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Recognizing Contamination Fragment Ions in Liquid Chromatography–Tandem Mass Spectrometry Data
Shipei Xing, Huaxu Yu, Min Liu, Qingquan Jia, Zhi Sun, Mingliang Fang, and Tao Huan*
J. Am. Soc. Mass Spectrom., 2021, DOI: 10.1021/jasms.0c00478
导师介绍
还涛
https://www.x-mol.com/groups/huan_tao
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!