当前位置:
X-MOL 学术
›
Earth Syst. Sci. Data
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Global biogeography of N2-fixing microbes: nifH amplicon database and analytics workflow
Earth System Science Data ( IF 11.2 ) Pub Date : 2024-06-12 , DOI: 10.5194/essd-2024-163 Michael Morando , Jonathan Magasin , Shunyan Cheung , Matthew M. Mills , Jonathan P. Zehr , Kendra A. Turk-Kubo
Earth System Science Data ( IF 11.2 ) Pub Date : 2024-06-12 , DOI: 10.5194/essd-2024-163 Michael Morando , Jonathan Magasin , Shunyan Cheung , Matthew M. Mills , Jonathan P. Zehr , Kendra A. Turk-Kubo
Abstract. Marine nitrogen (N) fixation is a globally significant biogeochemical process carried out by a specialized group of prokaryotes (diazotrophs), yet our understanding of their ecology is constantly evolving. Although marine dinitrogen (N2)-fixation is often ascribed to cyanobacterial diazotrophs, indirect evidence suggests that non-cyanobacterial diazotrophs (NCDs) might also be important. One widely used approach for understanding diazotroph diversity and biogeography is polymerase chain reaction (PCR)-amplification of a portion of the nifH gene, which encodes a structural component of the N2-fixing enzyme complex, nitrogenase. An array of bioinformatic tools exists to process nifH amplicon data, however, the lack of standardized practices has hindered cross-study comparisons. This has led to a missed opportunity to more thoroughly assess diazotroph biogeography, diversity, and their potential contributions to the marine N cycle. To address these knowledge gaps a bioinformatic workflow was designed that standardizes the processing of nifH amplicon datasets originating from high-throughput sequencing (HTS). Multiple datasets are efficiently and consistently processed with a specialized DADA2 pipeline to identify amplicon sequence variants (ASVs). A series of customizable post-pipeline stages then detect and discard spurious nifH sequences and annotate the subsequent quality-filtered nifH ASVs using multiple reference databases and classification approaches. This newly developed workflow was used to reprocess nearly all publicly available nifH amplicon HTS datasets from marine studies, and to generate a comprehensive nifH ASV database containing 7909 ASVs aggregated from 21 studies that represent the diazotrophic populations in the global ocean. For each sample, the database includes physical and chemical metadata obtained from the Simons Collaborative Marine Atlas Project (CMAP). Here we demonstrate the utility of this database for revealing global biogeographical patterns of prominent diazotroph groups and highlight the influence of sea surface temperature. The workflow and nifH ASV database provide a robust framework for studying marine N2 fixation and diazotrophic diversity captured by nifH amplicon HTS. Future datasets that target understudied ocean regions can be added easily, and users can tune parameters and studies included for their specific focus. The workflow and database are available, respectively, in GitHub (https://github.com/jdmagasin/nifH-ASV-workflow; Morando et al., 2024) and Figshare (https://doi.org/10.6084/m9.figshare.23795943.v1; Morando et al., 2024).
中文翻译:
固氮微生物的全球生物地理学:nifH 扩增子数据库和分析工作流程
摘要。海洋固氮 (N) 是一种具有全球意义的生物地球化学过程,由一组专门的原核生物(固氮生物)进行,但我们对其生态学的理解在不断发展。尽管海洋二氮(N 2 )固定通常归因于蓝藻固氮生物,但间接证据表明非蓝藻固氮生物(NCD)也可能很重要。一种广泛使用的了解固氮生物多样性和生物地理学的方法是聚合酶链式反应 (PCR) - 扩增 nifH 基因的一部分,该基因编码 N 2 固定酶复合物固氮酶的结构成分。存在一系列生物信息学工具来处理 nifH 扩增子数据,然而,缺乏标准化实践阻碍了交叉研究比较。这导致错失了更彻底评估固氮生物生物地理学、多样性及其对海洋氮循环的潜在贡献的机会。为了解决这些知识差距,设计了生物信息学工作流程,以标准化源自高通量测序 (HTS) 的 nifH 扩增子数据集的处理。使用专门的 DADA2 管道高效、一致地处理多个数据集,以识别扩增子序列变体 (ASV)。然后,一系列可定制的后管道阶段检测并丢弃虚假的 nifH 序列,并使用多个参考数据库和分类方法注释后续质量过滤的 nifH ASV。 这个新开发的工作流程用于重新处理来自海洋研究的几乎所有公开可用的 nifH 扩增子 HTS 数据集,并生成一个全面的 nifH ASV 数据库,其中包含从代表全球海洋中的固氮种群的 21 项研究中汇总的 7909 个 ASV。对于每个样本,数据库都包含从西蒙斯合作海洋地图集项目 (CMAP) 获得的物理和化学元数据。在这里,我们展示了该数据库在揭示重要固氮菌群的全球生物地理模式方面的实用性,并强调了海面温度的影响。工作流程和 nifH ASV 数据库为研究 nifH 扩增子 HTS 捕获的海洋 N 2 固定和固氮多样性提供了一个强大的框架。可以轻松添加针对未充分研究的海洋区域的未来数据集,并且用户可以根据其特定重点调整参数和研究。工作流程和数据库分别可在 GitHub (https://github.com/jdmagasin/nifH-ASV-workflow; Morando et al., 2024) 和 Figshare (https://doi.org/10.6084/m9) 中获取。 Figshare.23795943.v1;莫兰多等人,2024)。
更新日期:2024-06-12
中文翻译:
固氮微生物的全球生物地理学:nifH 扩增子数据库和分析工作流程
摘要。海洋固氮 (N) 是一种具有全球意义的生物地球化学过程,由一组专门的原核生物(固氮生物)进行,但我们对其生态学的理解在不断发展。尽管海洋二氮(N 2 )固定通常归因于蓝藻固氮生物,但间接证据表明非蓝藻固氮生物(NCD)也可能很重要。一种广泛使用的了解固氮生物多样性和生物地理学的方法是聚合酶链式反应 (PCR) - 扩增 nifH 基因的一部分,该基因编码 N 2 固定酶复合物固氮酶的结构成分。存在一系列生物信息学工具来处理 nifH 扩增子数据,然而,缺乏标准化实践阻碍了交叉研究比较。这导致错失了更彻底评估固氮生物生物地理学、多样性及其对海洋氮循环的潜在贡献的机会。为了解决这些知识差距,设计了生物信息学工作流程,以标准化源自高通量测序 (HTS) 的 nifH 扩增子数据集的处理。使用专门的 DADA2 管道高效、一致地处理多个数据集,以识别扩增子序列变体 (ASV)。然后,一系列可定制的后管道阶段检测并丢弃虚假的 nifH 序列,并使用多个参考数据库和分类方法注释后续质量过滤的 nifH ASV。 这个新开发的工作流程用于重新处理来自海洋研究的几乎所有公开可用的 nifH 扩增子 HTS 数据集,并生成一个全面的 nifH ASV 数据库,其中包含从代表全球海洋中的固氮种群的 21 项研究中汇总的 7909 个 ASV。对于每个样本,数据库都包含从西蒙斯合作海洋地图集项目 (CMAP) 获得的物理和化学元数据。在这里,我们展示了该数据库在揭示重要固氮菌群的全球生物地理模式方面的实用性,并强调了海面温度的影响。工作流程和 nifH ASV 数据库为研究 nifH 扩增子 HTS 捕获的海洋 N 2 固定和固氮多样性提供了一个强大的框架。可以轻松添加针对未充分研究的海洋区域的未来数据集,并且用户可以根据其特定重点调整参数和研究。工作流程和数据库分别可在 GitHub (https://github.com/jdmagasin/nifH-ASV-workflow; Morando et al., 2024) 和 Figshare (https://doi.org/10.6084/m9) 中获取。 Figshare.23795943.v1;莫兰多等人,2024)。