当前位置:
X-MOL 学术
›
Syst. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Expectation-Maximization enables Phylogenetic Dating under a Categorical Rate Model
Systematic Biology ( IF 6.1 ) Pub Date : 2024-07-06 , DOI: 10.1093/sysbio/syae034 Uyen Mai 1 , Eduardo Charvel 2 , Siavash Mirarab 3
Systematic Biology ( IF 6.1 ) Pub Date : 2024-07-06 , DOI: 10.1093/sysbio/syae034 Uyen Mai 1 , Eduardo Charvel 2 , Siavash Mirarab 3
Affiliation
Dating phylogenetic trees to obtain branch lengths in time units is essential for many downstream applications but has remained challenging. Dating requires inferring substitution rates that can change across the tree. While we can assume to have information about a small subset of nodes from the fossil record or sampling times (for fast-evolving organisms), inferring the ages of the other nodes essentially requires extrapolation and interpolation. Assuming a distribution of branch rates, we can formulate dating as a constrained maximum likelihood (ML) estimation problem. While ML dating methods exist, their accuracy degrades in the face of model misspecification, where the assumed parametric statistical distribution of branch rates vastly differs from the true distribution. Notably, most existing methods assume rigid, often unimodal, branch rate distributions. A second challenge is that the likelihood function involves an integral over the continuous domain of the rates, often leading to difficult non-convex optimization problems. To tackle both challenges, we propose a new method called Molecular Dating using Categorical-models (MD-Cat). MD-Cat uses a categorical model of rates inspired by non-parametric statistics and can approximate a large family of models by discretizing the rate distribution into k categories. Under this model, we can use the Expectation-Maximization algorithm to co-estimate rate categories and branch lengths in time units. Our model has fewer assumptions about the true distribution of branch rates than parametric models such as Gamma or LogNormal distribution. Our results on two simulated and real datasets of Angiosperms and HIV and a wide selection of rate distributions show that MD-Cat is often more accurate than the alternatives, especially on datasets with exponential or multimodal rate distributions.
中文翻译:
期望最大化支持在分类速率模型下进行系统发育测年
对系统发育树进行测年以获得时间单位的分支长度对于许多下游应用至关重要,但仍然具有挑战性。年代测定需要推断替代率,该替代率可以在整个树中发生变化。虽然我们可以假设从化石记录或采样时间(对于快速进化的生物)中获得有关一小部分节点的信息,但推断其他节点的年龄本质上需要外推和插值。假设分支速率的分布,我们可以将测年表述为约束最大似然 (ML) 估计问题。虽然存在 ML 测年方法,但面对模型错误指定,它们的准确性会降低,其中分支速率的假设参数统计分布与真实分布大不相同。值得注意的是,大多数现有方法都假设刚性的、通常是单峰的分支速率分布。第二个挑战是似然函数涉及速率连续域上的积分,这通常会导致困难的非凸优化问题。为了应对这两个挑战,我们提出了一种称为使用分类模型的分子测年 (MD-Cat) 的新方法。MD-Cat 使用受非参数统计启发的费率分类模型,并且可以通过将费率分布离散为 k 个类别来近似一大类模型。在这个模型下,我们可以使用 Expectation-Maximization 算法以时间单位共同估计速率类别和分支长度。与参数模型(如 Gamma 或 LogNormal 分布)相比,我们的模型对分支速率真实分布的假设更少。 我们在被子植物和 HIV 的两个模拟和真实数据集以及广泛的速率分布选择上的结果表明,MD-Cat 通常比其他方法更准确,尤其是在具有指数或多模态速率分布的数据集上。
更新日期:2024-07-06
中文翻译:
期望最大化支持在分类速率模型下进行系统发育测年
对系统发育树进行测年以获得时间单位的分支长度对于许多下游应用至关重要,但仍然具有挑战性。年代测定需要推断替代率,该替代率可以在整个树中发生变化。虽然我们可以假设从化石记录或采样时间(对于快速进化的生物)中获得有关一小部分节点的信息,但推断其他节点的年龄本质上需要外推和插值。假设分支速率的分布,我们可以将测年表述为约束最大似然 (ML) 估计问题。虽然存在 ML 测年方法,但面对模型错误指定,它们的准确性会降低,其中分支速率的假设参数统计分布与真实分布大不相同。值得注意的是,大多数现有方法都假设刚性的、通常是单峰的分支速率分布。第二个挑战是似然函数涉及速率连续域上的积分,这通常会导致困难的非凸优化问题。为了应对这两个挑战,我们提出了一种称为使用分类模型的分子测年 (MD-Cat) 的新方法。MD-Cat 使用受非参数统计启发的费率分类模型,并且可以通过将费率分布离散为 k 个类别来近似一大类模型。在这个模型下,我们可以使用 Expectation-Maximization 算法以时间单位共同估计速率类别和分支长度。与参数模型(如 Gamma 或 LogNormal 分布)相比,我们的模型对分支速率真实分布的假设更少。 我们在被子植物和 HIV 的两个模拟和真实数据集以及广泛的速率分布选择上的结果表明,MD-Cat 通常比其他方法更准确,尤其是在具有指数或多模态速率分布的数据集上。