当前位置:
X-MOL 学术
›
Syst. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Robustness of Divergence Time Estimation Despite Gene Tree Estimation Error: A Case Study of Fireflies (Coleoptera: Lampyridae)
Systematic Biology ( IF 6.1 ) Pub Date : 2024-11-13 , DOI: 10.1093/sysbio/syae065 Sebastian Höhna, Sarah E Lower, Pablo Duchen, Ana Catalán
Systematic Biology ( IF 6.1 ) Pub Date : 2024-11-13 , DOI: 10.1093/sysbio/syae065 Sebastian Höhna, Sarah E Lower, Pablo Duchen, Ana Catalán
Genomic data has become ubiquitous in phylogenomic studies, including divergence time estimation, but provide new challenges. These challenges include, amongst others, biological gene tree discordance, methodological gene tree estimation error, and computational limitations on performing full Bayesian inference under complex models. In this study, we use a recently published firefly (Coleoptera: Lampyridae) anchored hybrid enrichment dataset (AHE; 436 loci for 88 Lampyridae species and 10 outgroup species) as a case study to explore gene tree estimation error and the robustness of divergence time estimation. First, we explored the amount of model violation using posterior predictive simulations because model violations are likely to bias phylogenetic inferences and produce gene tree estimation error. We specifically focused on missing data (either uniformly distributed or systematically) and the distribution of highly variable and conserved sites (either uniformly distributed or clustered). Our assessment of model adequacy showed that standard phylogenetic substitution models are not adequate for any of the 436 AHE loci. We tested if the model violations and alignment errors resulted indeed in gene tree estimation error by comparing the observed gene tree discordance to simulated gene tree discordance under the multispecies coalescent model. Thus, we show that the inferred gene tree discordance is not only due to biological mechanism but primarily due to inference errors. Lastly, we explored if divergence time estimation is robust despite the observed gene tree estimation error. We selected four subsets of the full AHE dataset, concatenated each subset and performed a Bayesian relaxed clock divergence estimation in RevBayes. The estimated divergence times overlapped for all nodes that are shared between the topologies. Thus, divergence time estimation is robust using any well selected data subset as long as the topology inference is robust.
中文翻译:
尽管基因树估计误差,但发散时间估计的稳健性:以萤火虫(鞘翅目:Lampyridae)为例
基因组数据在系统发育研究中无处不在,包括分歧时间估计,但也带来了新的挑战。这些挑战包括生物基因树不一致、方法基因树估计错误以及在复杂模型下执行完整贝叶斯推理的计算限制。在这项研究中,我们使用最近发表的萤火虫 (鞘翅目:Lampyridae) 锚定杂交富集数据集 (AHE;88 个 Lampyridae 物种和 10 个外群物种的 436 个位点)作为案例研究来探索基因树估计误差和发散时间估计的稳健性。首先,我们使用后验预测模拟探索了模型违规的数量,因为模型违规可能会使系统发育推断产生偏差并产生基因树估计误差。我们特别关注缺失数据(均匀分布或系统分布)以及高度可变和保守位点的分布(均匀分布或聚类)。我们对模型充分性的评估表明,标准的系统发育替代模型对于 436 个 AHE 基因座中的任何一个都不够用。我们通过在多物种合并模型下将观察到的基因树不一致与模拟的基因树不一致进行比较,测试了模型违规和比对错误是否确实导致基因树估计错误。因此,我们表明推断的基因树不一致不仅是由于生物学机制,而且主要是由于推断错误。最后,我们探讨了尽管观察到基因树估计误差,但发散时间估计是否稳健。我们选择了完整 AHE 数据集的四个子集,连接每个子集并在 RevBayes 中执行贝叶斯松弛时钟发散估计。 对于在拓扑之间共享的所有节点,估计的发散时间重叠。因此,只要拓扑推理是稳健的,使用任何精心选择的数据子集的发散时间估计都是稳健的。
更新日期:2024-11-13
中文翻译:
尽管基因树估计误差,但发散时间估计的稳健性:以萤火虫(鞘翅目:Lampyridae)为例
基因组数据在系统发育研究中无处不在,包括分歧时间估计,但也带来了新的挑战。这些挑战包括生物基因树不一致、方法基因树估计错误以及在复杂模型下执行完整贝叶斯推理的计算限制。在这项研究中,我们使用最近发表的萤火虫 (鞘翅目:Lampyridae) 锚定杂交富集数据集 (AHE;88 个 Lampyridae 物种和 10 个外群物种的 436 个位点)作为案例研究来探索基因树估计误差和发散时间估计的稳健性。首先,我们使用后验预测模拟探索了模型违规的数量,因为模型违规可能会使系统发育推断产生偏差并产生基因树估计误差。我们特别关注缺失数据(均匀分布或系统分布)以及高度可变和保守位点的分布(均匀分布或聚类)。我们对模型充分性的评估表明,标准的系统发育替代模型对于 436 个 AHE 基因座中的任何一个都不够用。我们通过在多物种合并模型下将观察到的基因树不一致与模拟的基因树不一致进行比较,测试了模型违规和比对错误是否确实导致基因树估计错误。因此,我们表明推断的基因树不一致不仅是由于生物学机制,而且主要是由于推断错误。最后,我们探讨了尽管观察到基因树估计误差,但发散时间估计是否稳健。我们选择了完整 AHE 数据集的四个子集,连接每个子集并在 RevBayes 中执行贝叶斯松弛时钟发散估计。 对于在拓扑之间共享的所有节点,估计的发散时间重叠。因此,只要拓扑推理是稳健的,使用任何精心选择的数据子集的发散时间估计都是稳健的。