当前位置:
X-MOL 学术
›
Genome Res.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Multisample motif discovery and visualization for tandem repeats
Genome Research ( IF 6.2 ) Pub Date : 2024-11-13 , DOI: 10.1101/gr.279278.124 Yaran Zhang, Marc Hulsman, Alex Salazar, Niccoló Tesi, Lydian Knoop, Sven van der Lee, Sanduni Wijesekera, Jana Krizova, Erik-Jan Kamsteeg, Henne Holstege
Genome Research ( IF 6.2 ) Pub Date : 2024-11-13 , DOI: 10.1101/gr.279278.124 Yaran Zhang, Marc Hulsman, Alex Salazar, Niccoló Tesi, Lydian Knoop, Sven van der Lee, Sanduni Wijesekera, Jana Krizova, Erik-Jan Kamsteeg, Henne Holstege
Tandem Repeats (TR) occupy a significant portion of the human genome and are the source of polymorphism due to variations in sizes and motif compositions. Some of these variations have been associated with various neuropathological disorders, highlighting the clinical importance of assessing the motif structure of TRs. Moreover, assessing the TR motif variation can offer valuable insights into evolutionary dynamics and population structure. Previously, characterizations of TRs have been limited by short-read sequencing technology, which lacks the ability to accurately capture the full TR sequences. As long-read sequencing becomes more accessible and can capture the full complexity of TRs, there is now also a need for tools to characterize and analyze TRs using long-read data across multiple samples. In this study, we present MotifScope, a novel algorithm for characterization and visualization of TRs based on a de novo k-mer approach for motif discovery. Comparative analysis against established tools reveals that MotifScope can identify a greater number of motifs and more accurately represent the underlying repeat sequence. Moreover, MotifScope has been specifically designed to enable motif composition comparisons across assemblies of different individuals, as well as across long-read sequencing reads within an individual, through combined motif discovery and sequence alignment. We showcase potential applications of MotifScope in diverse fields, including population genetics, clinical settings, and forensic analyses.
中文翻译:
串联重复序列的多样本基序发现和可视化
串联重复序列 (TR) 占据了人类基因组的很大一部分,并且由于大小和基序组成的变化而成为多态性的来源。其中一些变异与各种神经病理学疾病有关,突出了评估 TRs 基序结构的临床重要性。此外,评估 TR 基序变异可以为进化动力学和种群结构提供有价值的见解。以前,TR 的表征受到短读长测序技术的限制,该技术缺乏准确捕获完整 TR 序列的能力。随着长读长测序变得更容易获得并且可以捕获 TR 的全部复杂性,现在还需要使用工具来使用多个样本的长读长数据来表征和分析 TR。在这项研究中,我们提出了 MotifScope,这是一种基于从头 k-mer 方法的 TR 表征和可视化的新算法,用于基序发现。与现有工具的比较分析表明,MotifScope 可以识别更多的基序,并更准确地表示潜在的重复序列。此外,MotifScope 经过专门设计,通过结合基序发现和序列比对,实现不同个体组装体之间的基序组成比较,以及个体内的长读长测序读数。我们展示了 MotifScope 在不同领域的潜在应用,包括群体遗传学、临床环境和法医分析。
更新日期:2024-11-14
中文翻译:
串联重复序列的多样本基序发现和可视化
串联重复序列 (TR) 占据了人类基因组的很大一部分,并且由于大小和基序组成的变化而成为多态性的来源。其中一些变异与各种神经病理学疾病有关,突出了评估 TRs 基序结构的临床重要性。此外,评估 TR 基序变异可以为进化动力学和种群结构提供有价值的见解。以前,TR 的表征受到短读长测序技术的限制,该技术缺乏准确捕获完整 TR 序列的能力。随着长读长测序变得更容易获得并且可以捕获 TR 的全部复杂性,现在还需要使用工具来使用多个样本的长读长数据来表征和分析 TR。在这项研究中,我们提出了 MotifScope,这是一种基于从头 k-mer 方法的 TR 表征和可视化的新算法,用于基序发现。与现有工具的比较分析表明,MotifScope 可以识别更多的基序,并更准确地表示潜在的重复序列。此外,MotifScope 经过专门设计,通过结合基序发现和序列比对,实现不同个体组装体之间的基序组成比较,以及个体内的长读长测序读数。我们展示了 MotifScope 在不同领域的潜在应用,包括群体遗传学、临床环境和法医分析。