当前位置:
X-MOL 学术
›
Syst. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Sequential Bayesian Phylogenetic Inference
Systematic Biology ( IF 6.1 ) Pub Date : 2024-05-21 , DOI: 10.1093/sysbio/syae020 Sebastian Höhna 1, 2 , Allison Y Hsiang 1, 2
Systematic Biology ( IF 6.1 ) Pub Date : 2024-05-21 , DOI: 10.1093/sysbio/syae020 Sebastian Höhna 1, 2 , Allison Y Hsiang 1, 2
Affiliation
The ideal approach to Bayesian phylogenetic inference is to estimate all parameters of interest jointly in a single hierarchical model. However, this is often not feasible in practice due to the high computational cost. Instead, phylogenetic pipelines generally consist of sequential analyses, whereby a single point estimate from a given analysis is used as input for the next analysis (e.g., a single multiple sequence alignment is used to estimate a gene tree). In this framework, uncertainty is not propagated from step to step, which can lead to inaccurate or spuriously confident results. Here, we formally develop and test a sequential inference approach for Bayesian phylogenetic inference, which uses importance sampling to generate observations for the next step of an analysis pipeline from the posterior distribution produced in the previous step. Our sequential inference approach presented here not only accounts for uncertainty between analysis steps, but also allows for greater flexibility in software choice (and hence model availability) and can be computationally more efficient than the traditional joint inference approach when multiple models are being tested. We show that our sequential inference approach is identical in practice to the joint inference approach only if sufficient information in the data is present (a narrow posterior distribution) and/or sufficiently many importance samples are used. Conversely, we show that the common practice of using a single point estimate can be biased, e.g., a single phylogeny estimate to transform an unrooted phylogeny into a time-calibrated phylogeny. We demonstrate the theory of sequential Bayesian inference using both a toy example and an empirical case study of divergence-time estimation in insects using a relaxed clock model from transcriptome data. In the empirical example, we estimate three posterior distributions of branch lengths from the same data (DNA character matrix with a GTR+Γ+I substitution model, an amino acid data matrix with empirical substitution models, and an amino acid data matrix with the PhyloBayes CAT-GTR model). Finally, we apply three different node-calibration strategies and show that divergence-time estimates are affected by both the data source and underlying substitution process to estimate branch lengths as well as the node-calibration strategies. Thus, our new sequential Bayesian phylogenetic inference provides the opportunity to efficiently test different approaches for divergence time estimation, including branch-length estimation from other software.
中文翻译:
顺序贝叶斯系统发育推断
贝叶斯系统发育推断的理想方法是在单个分层模型中联合估计所有感兴趣的参数。然而,由于计算成本高,这在实践中往往是不可行的。相反,系统发育管道通常由顺序分析组成,其中来自给定分析的单点估计用作下一次分析的输入(例如,使用单个多序列比对来估计基因树)。在这个框架中,不确定性不会一步一步地传播,这可能会导致结果不准确或虚假的自信。在这里,我们正式开发并测试了一种用于贝叶斯系统发育推断的顺序推理方法,该方法使用重要性采样从上一步生成的后验分布中为分析管道的下一步生成观察结果。我们这里介绍的顺序推理方法不仅考虑了分析步骤之间的不确定性,而且还允许在软件选择方面具有更大的灵活性(从而获得模型可用性),并且在测试多个模型时,在计算上比传统的联合推理方法更有效。我们表明,只有在数据中存在足够的信息(狭窄的后验分布)和/或使用足够多的重要性样本的情况下,我们的顺序推理方法在实践中与联合推理方法相同。相反,我们表明使用单点估计的常见做法可能是有偏差的,例如,将无根系统发育转换为时间校准的系统发育的单一系统发育估计。 我们使用玩具示例和昆虫发散时间估计的经验案例研究来演示顺序贝叶斯推理理论,该案例研究使用来自转录组数据的松弛时钟模型。在实证示例中,我们从相同数据中估计了分支长度的三个后验分布 (具有 GTR+Γ+I 取代模型的 DNA 特征矩阵,具有经验替代模型的氨基酸数据矩阵,以及具有 PhyloBayes CAT-GTR 模型的氨基酸数据矩阵)。最后,我们应用了三种不同的节点校准策略,并表明发散时间估计受数据源和底层替换过程的影响,以估计分支长度以及节点校准策略。因此,我们新的顺序贝叶斯系统发育推断提供了有效测试不同发散时间估计方法的机会,包括来自其他软件的分支长度估计。
更新日期:2024-05-21
中文翻译:
顺序贝叶斯系统发育推断
贝叶斯系统发育推断的理想方法是在单个分层模型中联合估计所有感兴趣的参数。然而,由于计算成本高,这在实践中往往是不可行的。相反,系统发育管道通常由顺序分析组成,其中来自给定分析的单点估计用作下一次分析的输入(例如,使用单个多序列比对来估计基因树)。在这个框架中,不确定性不会一步一步地传播,这可能会导致结果不准确或虚假的自信。在这里,我们正式开发并测试了一种用于贝叶斯系统发育推断的顺序推理方法,该方法使用重要性采样从上一步生成的后验分布中为分析管道的下一步生成观察结果。我们这里介绍的顺序推理方法不仅考虑了分析步骤之间的不确定性,而且还允许在软件选择方面具有更大的灵活性(从而获得模型可用性),并且在测试多个模型时,在计算上比传统的联合推理方法更有效。我们表明,只有在数据中存在足够的信息(狭窄的后验分布)和/或使用足够多的重要性样本的情况下,我们的顺序推理方法在实践中与联合推理方法相同。相反,我们表明使用单点估计的常见做法可能是有偏差的,例如,将无根系统发育转换为时间校准的系统发育的单一系统发育估计。 我们使用玩具示例和昆虫发散时间估计的经验案例研究来演示顺序贝叶斯推理理论,该案例研究使用来自转录组数据的松弛时钟模型。在实证示例中,我们从相同数据中估计了分支长度的三个后验分布 (具有 GTR+Γ+I 取代模型的 DNA 特征矩阵,具有经验替代模型的氨基酸数据矩阵,以及具有 PhyloBayes CAT-GTR 模型的氨基酸数据矩阵)。最后,我们应用了三种不同的节点校准策略,并表明发散时间估计受数据源和底层替换过程的影响,以估计分支长度以及节点校准策略。因此,我们新的顺序贝叶斯系统发育推断提供了有效测试不同发散时间估计方法的机会,包括来自其他软件的分支长度估计。