当前位置:
X-MOL 学术
›
Genome Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Optimizing and benchmarking polygenic risk scores with GWAS summary statistics
Genome Biology ( IF 10.1 ) Pub Date : 2024-10-08 , DOI: 10.1186/s13059-024-03400-w Zijie Zhao, Tim Gruenloh, Meiyi Yan, Yixuan Wu, Zhongxuan Sun, Jiacheng Miao, Yuchang Wu, Jie Song, Qiongshi Lu
Genome Biology ( IF 10.1 ) Pub Date : 2024-10-08 , DOI: 10.1186/s13059-024-03400-w Zijie Zhao, Tim Gruenloh, Meiyi Yan, Yixuan Wu, Zhongxuan Sun, Jiacheng Miao, Yuchang Wu, Jie Song, Qiongshi Lu
Polygenic risk score (PRS) is a major research topic in human genetics. However, a significant gap exists between PRS methodology and applications in practice due to often unavailable individual-level data for various PRS tasks including model fine-tuning, benchmarking, and ensemble learning. We introduce an innovative statistical framework to optimize and benchmark PRS models using summary statistics of genome-wide association studies. This framework builds upon our previous work and can fine-tune virtually all existing PRS models while accounting for linkage disequilibrium. In addition, we provide an ensemble learning strategy named PUMAS-ensemble to combine multiple PRS models into an ensemble score without requiring external data for model fitting. Through extensive simulations and analysis of many complex traits in the UK Biobank, we demonstrate that this approach closely approximates gold-standard analytical strategies based on external validation, and substantially outperforms state-of-the-art PRS methods. Our method is a powerful and general modeling technique that can continue to combine the best-performing PRS methods out there through ensemble learning and could become an integral component for all future PRS applications.
中文翻译:
使用 GWAS 汇总统计对多基因风险评分进行优化和基准测试
多基因风险评分 (PRS) 是人类遗传学的一个主要研究课题。然而,PRS 方法和实践中的应用之间存在巨大差距,因为各种 PRS 任务(包括模型微调、基准测试和集成学习)通常无法获得个人层面的数据。我们引入了一个创新的统计框架,使用全基因组关联研究的汇总统计数据来优化和基准测试 PRS 模型。该框架建立在我们之前工作的基础上,可以微调几乎所有现有的 PRS 模型,同时考虑连锁不平衡。此外,我们还提供了一种名为 PUMAS-ensemble 的集成学习策略,将多个 PRS 模型组合成一个集成分数,而无需外部数据进行模型拟合。通过对英国生物样本库中许多复杂性状的广泛模拟和分析,我们证明这种方法非常接近基于外部验证的黄金标准分析策略,并且大大优于最先进的 PRS 方法。我们的方法是一种强大而通用的建模技术,可以通过集成学习继续结合性能最佳的 PRS 方法,并可能成为所有未来 PRS 应用程序不可或缺的组成部分。
更新日期:2024-10-08
中文翻译:
使用 GWAS 汇总统计对多基因风险评分进行优化和基准测试
多基因风险评分 (PRS) 是人类遗传学的一个主要研究课题。然而,PRS 方法和实践中的应用之间存在巨大差距,因为各种 PRS 任务(包括模型微调、基准测试和集成学习)通常无法获得个人层面的数据。我们引入了一个创新的统计框架,使用全基因组关联研究的汇总统计数据来优化和基准测试 PRS 模型。该框架建立在我们之前工作的基础上,可以微调几乎所有现有的 PRS 模型,同时考虑连锁不平衡。此外,我们还提供了一种名为 PUMAS-ensemble 的集成学习策略,将多个 PRS 模型组合成一个集成分数,而无需外部数据进行模型拟合。通过对英国生物样本库中许多复杂性状的广泛模拟和分析,我们证明这种方法非常接近基于外部验证的黄金标准分析策略,并且大大优于最先进的 PRS 方法。我们的方法是一种强大而通用的建模技术,可以通过集成学习继续结合性能最佳的 PRS 方法,并可能成为所有未来 PRS 应用程序不可或缺的组成部分。