当前位置:
X-MOL 学术
›
Genome Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Resolving intra-repeat variation in medically relevant VNTRs from short-read sequencing data using the cardiovascular risk gene LPA as a model
Genome Biology ( IF 10.1 ) Pub Date : 2024-06-26 , DOI: 10.1186/s13059-024-03316-5 Silvia Di Maio 1 , Peter Zöscher 1 , Hansi Weissensteiner 1 , Lukas Forer 1 , Johanna F Schachtl-Riess 1 , Stephan Amstler 1 , Gertraud Streiter 1 , Cathrin Pfurtscheller 1 , Bernhard Paulweber 2 , Florian Kronenberg 1 , Stefan Coassin 1 , Sebastian Schönherr 1
Genome Biology ( IF 10.1 ) Pub Date : 2024-06-26 , DOI: 10.1186/s13059-024-03316-5 Silvia Di Maio 1 , Peter Zöscher 1 , Hansi Weissensteiner 1 , Lukas Forer 1 , Johanna F Schachtl-Riess 1 , Stephan Amstler 1 , Gertraud Streiter 1 , Cathrin Pfurtscheller 1 , Bernhard Paulweber 2 , Florian Kronenberg 1 , Stefan Coassin 1 , Sebastian Schönherr 1
Affiliation
Variable number tandem repeats (VNTRs) are highly polymorphic DNA regions harboring many potentially disease-causing variants. However, VNTRs often appear unresolved (“dark”) in variation databases due to their repetitive nature. One particularly complex and medically relevant VNTR is the KIV-2 VNTR located in the cardiovascular disease gene LPA which encompasses up to 70% of the coding sequence. Using the highly complex LPA gene as a model, we develop a computational approach to resolve intra-repeat variation in VNTRs from largely available short-read sequencing data. We apply the approach to six protein-coding VNTRs in 2504 samples from the 1000 Genomes Project and developed an optimized method for the LPA KIV-2 VNTR that discriminates the confounding KIV-2 subtypes upfront. This results in an F1-score improvement of up to 2.1-fold compared to previously published strategies. Finally, we analyze the LPA VNTR in > 199,000 UK Biobank samples, detecting > 700 KIV-2 mutations. This approach successfully reveals new strong Lp(a)-lowering effects for KIV-2 variants, with protective effect against coronary artery disease, and also validated previous findings based on tagging SNPs. Our approach paves the way for reliable variant detection in VNTRs at scale and we show that it is transferable to other dark regions, which will help unlock medical information hidden in VNTRs.
中文翻译:
使用心血管风险基因 LPA 作为模型,解决短读长测序数据中医学相关 VNTR 的重复内变异
可变数量串联重复序列 (VNTR) 是高度多态性的 DNA 区域,含有许多潜在的致病变异。然而,由于其重复性,VNTR 在变异数据库中经常出现未解析(“黑暗”)。一种特别复杂且与医学相关的 VNTR 是位于心血管疾病基因 LPA 中的 KIV-2 VNTR,该基因包含高达 70% 的编码序列。使用高度复杂的 LPA 基因作为模型,我们开发了一种计算方法,从大量可用的短读长测序数据中解决 VNTR 的重复内变异。我们将该方法应用于 1000 个基因组计划的 2504 个样本中的 6 个蛋白质编码 VNTR,并开发了一种针对 LPA KIV-2 VNTR 的优化方法,可以预先区分混杂的 KIV-2 亚型。与之前发布的策略相比,这导致 F1 分数提高高达 2.1 倍。最后,我们分析了 > 199,000 个英国生物银行样本中的 LPA VNTR,检测到 > 700 个 KIV-2 突变。该方法成功揭示了 KIV-2 变体新的强 Lp(a) 降低作用,对冠状动脉疾病具有保护作用,并且还验证了之前基于标记 SNP 的发现。我们的方法为大规模 VNTR 中可靠的变异检测铺平了道路,并且我们证明它可以转移到其他黑暗区域,这将有助于解锁 VNTR 中隐藏的医疗信息。
更新日期:2024-06-26
中文翻译:
使用心血管风险基因 LPA 作为模型,解决短读长测序数据中医学相关 VNTR 的重复内变异
可变数量串联重复序列 (VNTR) 是高度多态性的 DNA 区域,含有许多潜在的致病变异。然而,由于其重复性,VNTR 在变异数据库中经常出现未解析(“黑暗”)。一种特别复杂且与医学相关的 VNTR 是位于心血管疾病基因 LPA 中的 KIV-2 VNTR,该基因包含高达 70% 的编码序列。使用高度复杂的 LPA 基因作为模型,我们开发了一种计算方法,从大量可用的短读长测序数据中解决 VNTR 的重复内变异。我们将该方法应用于 1000 个基因组计划的 2504 个样本中的 6 个蛋白质编码 VNTR,并开发了一种针对 LPA KIV-2 VNTR 的优化方法,可以预先区分混杂的 KIV-2 亚型。与之前发布的策略相比,这导致 F1 分数提高高达 2.1 倍。最后,我们分析了 > 199,000 个英国生物银行样本中的 LPA VNTR,检测到 > 700 个 KIV-2 突变。该方法成功揭示了 KIV-2 变体新的强 Lp(a) 降低作用,对冠状动脉疾病具有保护作用,并且还验证了之前基于标记 SNP 的发现。我们的方法为大规模 VNTR 中可靠的变异检测铺平了道路,并且我们证明它可以转移到其他黑暗区域,这将有助于解锁 VNTR 中隐藏的医疗信息。