基于质谱的代谢组学已日益成为天然产物化学成分研究的“利器”。尤其在植物提取物的成分分析中,常常使用靶向代谢组学(targeted metabolomics)方法,这种方法一般先有一个确定的目标分子列表,而样品分析是为了确认该列表上的某些目标分子是否存在。这种方法显然不会考虑目标分子列表之外的物质,也就有可能导致一些不足,比如无法检测到某种意料之外的污染物、来源的分类学研究出错,如此等等。相比之下,非靶向代谢组学(untargeted metabolomics)方法能够克服上述缺陷,可将所有质谱检测到的特征(如m/z-停留时间)以“特征表(feature lists)”的方式呈现,再通过参考化合物或计算方法用已知分子进行注释。如果这些非靶向代谢组学的质谱数据能够共享,那岂不是可以拿别人的质谱数据来做自己的研究?(不用做实验就能有数据可用,想想都觉得美滋滋)
现实情况毫无意外的让人失望。天然产物学术圈子中对于获取或处理非靶向代谢组学数据集的最佳方式至今还没有一个共识,而且质谱工作流中涉及大量的仪器和分析参数,更要命的是每个参数都可能会影响数据内容和质量,这就给不同实验室、甚至同一个实验室不同质谱仪器的数据共享打上了大大的问号。为了解答这个问题,加拿大西蒙菲莎大学的Roger G. Linington教授和美国北卡罗来纳大学格林斯伯勒分校的Nadja B. Cech教授合作,比较了来自两个实验室不同质谱平台的同一样品集的质谱数据,并评估了这两个数据集之间的相似性,关注点在于质谱特征及其描述样品化学成分的能力。有些出乎意料,即便使用了适当的对照和重复操作,所收集的两个数据集的特征重叠也非常低,而电离源中的裂解过程、电荷状态和加合物形成方面的差异是其主要原因。这些发现挑战了一个传统观点,即电喷雾电离质谱(ESI-MS)可以在溶液中的分析物与数据集中的特征之间产生简单的“一对一”对应关系。不过,尽管特征表重叠率不高,但是借助主成分分析(PCA)却可以生成在定性上相似的PCA图。总而言之,比较实验室间非靶向代谢组学的质谱数据是有挑战性的,不过在PCA的帮助下依然可以对同一样品集得到相同的定性分析结论。
实验室间质谱数据比较。图片来源:J. Nat. Prod.
他们领导的两个实验室选择绿茶作为研究对象,37种不同来源的绿茶样品(包括茶叶、茶粉、胶囊等等)来自31家供应商,其中包括美国国家标准与技术研究所(NIST)的绿茶标准品(SRM 3254)为阳性对照,另外还选用了1种姜黄-生姜混合茶为阴性对照。他们对每个样品进行了3次重复提取,每次提取的样品都进行了3次分析。两个实验室使用不同的高分辨质谱仪,Waters SYNAPT G2-Si qTOF(实验室A)和Thermo Fisher Q-Exactive Plus Orbitrap (实验室B),都配有ESI源;可产生相似的数据类型(MS1和可选的MS2数据集)。为了使实验数据可以进行比较,他们选用了同一种短线性梯度色谱法,采用相同的色谱柱和色谱条件;另外,他们在两台质谱仪上使用了相同的数据获取参数,并使用开源软件平台MZmine2来处理两个质谱平台的原始数据。
本实验的工作流程 图片来源:J. Nat. Prod.
他们首先评估了重复分析对数据质量的影响。在化学分析中,重复可以分为两大类:一是生物重复,其样品采集自不同个体或某一给定种群的样品池(例如,同种植物不同个体的多个样品,或多个批次的细菌细胞);一是分析重复(也称技术重复),即同一样品重复分析多次。为捕捉不同样品提取和分析整个过程中的变化,他们选择了分析重复——每个样品重复提取3次,每个提取批次重复进样3次。两个实验室对NIST绿茶标准品的数据分析表明,无论是重复提取还是重复进样获得的数据集,在3次重复中均出现的特征只是少数,且一般较强,而大部分较弱的特征仅出现了1次或2次。这就意味着,分析重复对于提高数据集质量和防止数据解释错误来说很重要,但也可能会排除某些可能代表真实分析物的低丰度特征。
实验室A和B重复分析得到的特征分布。图片来源:J. Nat. Prod.
随后,他们对两个实验室产生的质谱特征表进行比较,通过比较实验室数据之间的重叠程度来评估数据集的质量。结果显示,从特征绝对数量来看,实验室A要少于实验室B(10047 vs. 18247)。那么,是实验室B的数据大而全,还是实验室A的数据小而精,或是两者从不同方面(如内源片段、加合物)表现了样品的化学组成?他们试图从更深的角度去分析这种差异的来源,因此提出了3个问题:(1)每个数据集中有多少可检测的已知参考化合物?(2)两个数据集有多少特征是重叠的?(3)每个特征表中的独特特征是如何产生的?他们购买了绿茶中常见的15种已知化合物,构建了一个参考化合物集。数据分析表明,咖啡酸和没食子酸在两个数据集中信号强度极低,接近于检测限;相比之下,咖啡因呈现非常高的信号强度。他们基于保留时间和质量-电荷(m/z)比来分析两个特征表之间的匹配特征。令人略有吃惊的是,两个实验室特征表的最大重叠只有29%,远低于最初的预期。
实验室A和B参考化合物质谱停留时间的关系(A),质谱特征韦恩图(B)。图片来源:J. Nat. Prod.
他们推测造成这种差异的原因有几种可能:(1)特征表中含有大量与样品中真实成分无关的干扰;(2)两台仪器中被电离的分子可能不同;(3)两台仪器对同一分子有可能产生显著不同的MS1特征(电荷、碎片、加合物等)。为此,他们分别在两台仪器中分析了绿茶的15种参考化合物。结果显示,两台仪器的特征差异很大程度上来自于形成了不同的加合物、团簇和源内片段,也就是与电离过程有关。
实验室A和B参考化合物质谱特征数据的比较。图片来源:J. Nat. Prod.
为了验证两台仪器之间的特征差异在一定程度上是由于相同分子集产生不同质谱特征造成的,他们扩大范围,选择37种来源的绿茶样品,并以姜黄和生姜样品作为阴性对照进行研究。研究发现,实验室A和B分别检测到10325和12121种特征,其中有2649种特征重叠。他们用主成分分析(PCA)对两个特征表进行分析以评估二者区分样品类型的能力。PCA结果显示,两个特征表中的差异代表了真正的特征(即来自绿茶代谢物组分的特征),而非干扰或污染(下图)。也就是说,数据并不能确切的表明两个质谱平台中的哪一个“更好”,两个质谱平台都可以定性表征绿茶样品的化学差异。
实验室A和B分析38个样品的韦恩图、主成分分析图。图片来源:J. Nat. Prod.
通过上述分析,他们得出结论:非靶向代谢组学研究中,使用两台不同质谱仪器分析相同的样品,即使所有的数据采集参数都相同,由于仪器硬件上的差异也会导致特征表的差异,使得数据难以比较。不过,在主成分分析的帮助下,所采集的数据集都能够用于定性描述绿茶样品化学成分的差异。也就是说,非靶向代谢组学特征表与质谱仪器有关,所以并不能单独用来描述样品的化学组成。不过,如果是比较相同质谱平台上分析的样品,这些特征表可能还有一定的用武之地。作者在文末还大胆猜想,如果能开发一种算法工具,高效准确地将复杂的特征表“瘦身”为对应的化合物组分列表,那就能实现不同实验室间质谱数据的共享了。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Interlaboratory Comparison of Untargeted Mass Spectrometry Data Uncovers Underlying Causes for Variability
Trevor N. Clark, Joëlle Houriet, Warren S. Vidar, Joshua J. Kellogg, Daniel A. Todd, Nadja B. Cech*, and Roger G. Linington*
J. Nat. Prod., 2021, 84, 824–835, DOI: 10.1021/acs.jnatprod.0c01376
(本文由水村山郭供稿)
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!