当前位置:
X-MOL 学术
›
Syst. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Artifactual Orthologs and the Need for Diligent Data Exploration in Complex Phylogenomic Datasets: A Museomic Case Study from the Andean Flora
Systematic Biology ( IF 6.1 ) Pub Date : 2024-01-03 , DOI: 10.1093/sysbio/syad076 Laura A Frost 1, 2 , Ana M Bedoya 1 , Laura P Lagomarsino 1
Systematic Biology ( IF 6.1 ) Pub Date : 2024-01-03 , DOI: 10.1093/sysbio/syad076 Laura A Frost 1, 2 , Ana M Bedoya 1 , Laura P Lagomarsino 1
Affiliation
The Andes mountains of western South America are a globally important biodiversity hotspot, yet there is a paucity of resolved phylogenies for plant clades from this region. Filling an important gap in our understanding of the World’s richest flora, we present the first phylogeny of Freziera (Pentaphylacaceae), an Andean-centered, cloud forest radiation. Our dataset was obtained via hybrid-enriched target sequence capture of Angiosperms353 universal loci for 50 of the ca. 75 spp., obtained almost entirely from herbarium specimens. We identify high phylogenomic complexity in Freziera, including the presence of data artifacts. Via by-eye observation of gene trees, detailed examination of warnings from recently improved assembly pipelines, and gene tree filtering, we identified that artifactual orthologs (i.e., the presence of only one copy of a multicopy gene due to differential assembly) were an important source of gene tree heterogeneity that had a negative impact on phylogenetic inference and support. These artifactual orthologs may be common in plant phylogenomic datasets, where multiple instances of genome duplication are common. After accounting for artifactual orthologs as source of gene tree error, we identified a significant, but nonspecific signal of introgression using Patterson’s D and f4 statistics. Despite phylogenomic complexity, we were able to resolve Freziera into 9 well-supported subclades whose evolution has been shaped by multiple evolutionary processes, including incomplete lineage sorting, historical gene flow, and gene duplication. Our results highlight the complexities of plant phylogenomics, which are heightened in Andean radiations, and show the impact of filtering data processing artifacts and standard filtering approaches on phylogenetic inference.
中文翻译:
人工直系同源物和复杂系统发育数据集中勤奋数据探索的需求:来自安第斯植物区系的博物馆学案例研究
南美洲西部的安第斯山脉是全球重要的生物多样性热点地区,但该地区植物分支的系统发育缺乏。为了填补我们对世界上最丰富植物群的理解中的一个重要空白,我们提出了 Freziera (Pentaphylacaceae) 的第一个系统发育,这是一种以安第斯为中心的云雾森林辐射。我们的数据集是通过杂交富集的 Angiosperms353 通用基因座的靶序列捕获获得的,该基因座几乎完全来自植物标本。我们在 Freziera 中确定了高度的系统发育复杂性,包括数据伪影的存在。通过对基因树的观察、对最近改进的组装管道的警告的详细检查以及基因树过滤,我们发现人为直系同源物(即,由于差异组装而仅存在一个多拷贝基因的拷贝)是基因树异质性的重要来源,对系统发育推断和支持有负面影响。这些伪作直系同源物在植物系统发育基因组数据集中可能很常见,其中基因组复制的多个实例很常见。在将人工直系同源物作为基因树误差的来源后,我们使用 Patterson 的 D 和 f4 统计量确定了一个重要但非特异性的渗入信号。尽管系统发育复杂,但我们还是能够将 Freziera 分解为 9 个得到充分支持的亚分支,这些亚分支的进化是由多个进化过程塑造的,包括不完整的谱系分选、历史基因流和基因复制。 我们的结果突出了植物系统发育组学的复杂性,这些复杂性在安第斯辐射中加剧,并显示了过滤数据处理伪影和标准过滤方法对系统发育推断的影响。
更新日期:2024-01-03
中文翻译:
人工直系同源物和复杂系统发育数据集中勤奋数据探索的需求:来自安第斯植物区系的博物馆学案例研究
南美洲西部的安第斯山脉是全球重要的生物多样性热点地区,但该地区植物分支的系统发育缺乏。为了填补我们对世界上最丰富植物群的理解中的一个重要空白,我们提出了 Freziera (Pentaphylacaceae) 的第一个系统发育,这是一种以安第斯为中心的云雾森林辐射。我们的数据集是通过杂交富集的 Angiosperms353 通用基因座的靶序列捕获获得的,该基因座几乎完全来自植物标本。我们在 Freziera 中确定了高度的系统发育复杂性,包括数据伪影的存在。通过对基因树的观察、对最近改进的组装管道的警告的详细检查以及基因树过滤,我们发现人为直系同源物(即,由于差异组装而仅存在一个多拷贝基因的拷贝)是基因树异质性的重要来源,对系统发育推断和支持有负面影响。这些伪作直系同源物在植物系统发育基因组数据集中可能很常见,其中基因组复制的多个实例很常见。在将人工直系同源物作为基因树误差的来源后,我们使用 Patterson 的 D 和 f4 统计量确定了一个重要但非特异性的渗入信号。尽管系统发育复杂,但我们还是能够将 Freziera 分解为 9 个得到充分支持的亚分支,这些亚分支的进化是由多个进化过程塑造的,包括不完整的谱系分选、历史基因流和基因复制。 我们的结果突出了植物系统发育组学的复杂性,这些复杂性在安第斯辐射中加剧,并显示了过滤数据处理伪影和标准过滤方法对系统发育推断的影响。