当前位置:
X-MOL 学术
›
Syst. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Phylo2Vec: a vector representation for binary trees
Systematic Biology ( IF 6.1 ) Pub Date : 2024-06-26 , DOI: 10.1093/sysbio/syae030 Matthew J Penn 1 , Neil Scheidwasser 2 , Mark P Khurana 2 , David A Duchêne 1 , Christl A Donnelly 1, 3 , Samir Bhatt 2, 4
Systematic Biology ( IF 6.1 ) Pub Date : 2024-06-26 , DOI: 10.1093/sysbio/syae030 Matthew J Penn 1 , Neil Scheidwasser 2 , Mark P Khurana 2 , David A Duchêne 1 , Christl A Donnelly 1, 3 , Samir Bhatt 2, 4
Affiliation
Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search, using different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with n leaves to a unique integer vector of length n − 1. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.
中文翻译:
Phylo2Vec:二叉树的向量表示
从生物数据推断出的二元系统发育树对于理解进化单位之间的共享历史至关重要。然而,推断树中潜在节点的位置在计算上是昂贵的。最先进的方法依赖于精心设计的树搜索启发式方法,使用不同的数据结构来轻松操作(例如,面向对象编程语言中的类)和树的可读表示(例如,Newick 格式字符串)。在这里,我们提出了 Phylo2Vec,一种系统发育树的简约编码,可作为操作和表示系统发育树的统一方法。 Phylo2Vec 将任何具有 n 个叶子的二叉树映射到长度为 n − 1 的唯一整数向量。Phylo2Vec 的优点有四重:i) 快速树采样,(ii) 与 Newick 字符串相比的压缩树表示,iii) 快速且明确的验证如果两个二叉树在拓扑上相同,并且 iv) 以非常大或小的跳跃遍历树空间的系统能力。作为概念证明,我们使用 Phylo2Vec 对五个现实世界数据集进行最大似然推理,并表明一个简单的基于爬山的优化方案可以有效地遍历广阔的树空间,从随机树到最优树。
更新日期:2024-06-26
中文翻译:
Phylo2Vec:二叉树的向量表示
从生物数据推断出的二元系统发育树对于理解进化单位之间的共享历史至关重要。然而,推断树中潜在节点的位置在计算上是昂贵的。最先进的方法依赖于精心设计的树搜索启发式方法,使用不同的数据结构来轻松操作(例如,面向对象编程语言中的类)和树的可读表示(例如,Newick 格式字符串)。在这里,我们提出了 Phylo2Vec,一种系统发育树的简约编码,可作为操作和表示系统发育树的统一方法。 Phylo2Vec 将任何具有 n 个叶子的二叉树映射到长度为 n − 1 的唯一整数向量。Phylo2Vec 的优点有四重:i) 快速树采样,(ii) 与 Newick 字符串相比的压缩树表示,iii) 快速且明确的验证如果两个二叉树在拓扑上相同,并且 iv) 以非常大或小的跳跃遍历树空间的系统能力。作为概念证明,我们使用 Phylo2Vec 对五个现实世界数据集进行最大似然推理,并表明一个简单的基于爬山的优化方案可以有效地遍历广阔的树空间,从随机树到最优树。