当前位置:
X-MOL 学术
›
G3 Genes Genomes Genet.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Revisiting the genome-wide significance threshold for common variant GWAS.
G3: Genes, Genomes, Genetics ( IF 2.1 ) Pub Date : 2021-02-09 , DOI: 10.1093/g3journal/jkaa056 Zhongsheng Chen 1 , Michael Boehnke 1 , Xiaoquan Wen 1 , Bhramar Mukherjee 1
G3: Genes, Genomes, Genetics ( IF 2.1 ) Pub Date : 2021-02-09 , DOI: 10.1093/g3journal/jkaa056 Zhongsheng Chen 1 , Michael Boehnke 1 , Xiaoquan Wen 1 , Bhramar Mukherjee 1
Affiliation
Over the last decade, GWAS meta-analyses have used a strict P-value threshold of 5 × 10-8 to classify associations as significant. Here, we use our current understanding of frequently studied traits including lipid levels, height, and BMI to revisit this genome-wide significance threshold. We compare the performance of studies using the P = 5 × 10-8 threshold in terms of true and false positive rate to other multiple testing strategies: (1) less stringent P-value thresholds, (2) controlling the FDR with the Benjamini-Hochberg and Benjamini-Yekutieli procedure, and (3) controlling the Bayesian FDR with posterior probabilities. We applied these procedures to re-analyze results from the Global Lipids and GIANT GWAS meta-analysis consortia and supported them with extensive simulation that mimics the empirical data. We observe in simulated studies with sample sizes ∼20,000 and >120,000 that relaxing the P-value threshold to 5 × 10-7 increased discovery at the cost of 18% and 8% of additional loci being false positive results, respectively. FDR and Bayesian FDR are well controlled for both sample sizes with a few exceptions that disappear under a less stringent definition of true positives and the two approaches yield similar results. Our work quantifies the value of using a relaxed P-value threshold in large studies to increase their true positive discovery but also show the excess false positive rates due to such actions in modest-sized studies. These results may guide investigators considering different thresholds in replication studies and downstream work such as gene-set enrichment or pathway analysis. Finally, we demonstrate the viability of FDR-controlling procedures in GWAS.
中文翻译:
重新审视常见变异 GWAS 的全基因组显着性阈值。
在过去的十年中,GWAS 荟萃分析使用严格的 P 值阈值 5 × 10-8 将关联分类为显着。在这里,我们利用目前对经常研究的特征(包括血脂水平、身高和体重指数)的理解来重新审视这个全基因组显着性阈值。我们将使用 P = 5 × 10-8 阈值的真阳性率和假阳性率的研究性能与其他多重测试策略进行比较:(1) 不太严格的 P 值阈值,(2) 使用 Benjamini- 控制 FDR Hochberg 和 Benjamini-Yekutieli 过程,以及 (3) 用后验概率控制贝叶斯 FDR。我们应用这些程序来重新分析 Global Lipids 和 GIANT GWAS 荟萃分析联盟的结果,并通过模仿经验数据的广泛模拟来支持它们。我们在样本量约为 20,000 和 >120,000 的模拟研究中观察到,将 P 值阈值放宽至 5 × 10-7 会增加发现,但代价是额外基因座的假阳性结果分别为 18% 和 8%。 FDR 和贝叶斯 FDR 对于两种样本量都得到了很好的控制,除了一些例外情况,这些例外情况在不太严格的真阳性定义下消失,并且两种方法产生相似的结果。我们的工作量化了在大型研究中使用宽松的 P 值阈值以增加其真正阳性发现的价值,但也显示了在中等规模的研究中由于此类行为而导致的过多假阳性率。这些结果可以指导研究人员考虑复制研究和下游工作(例如基因组富集或通路分析)中的不同阈值。最后,我们证明了 GWAS 中 FDR 控制程序的可行性。
更新日期:2021-02-09
中文翻译:
重新审视常见变异 GWAS 的全基因组显着性阈值。
在过去的十年中,GWAS 荟萃分析使用严格的 P 值阈值 5 × 10-8 将关联分类为显着。在这里,我们利用目前对经常研究的特征(包括血脂水平、身高和体重指数)的理解来重新审视这个全基因组显着性阈值。我们将使用 P = 5 × 10-8 阈值的真阳性率和假阳性率的研究性能与其他多重测试策略进行比较:(1) 不太严格的 P 值阈值,(2) 使用 Benjamini- 控制 FDR Hochberg 和 Benjamini-Yekutieli 过程,以及 (3) 用后验概率控制贝叶斯 FDR。我们应用这些程序来重新分析 Global Lipids 和 GIANT GWAS 荟萃分析联盟的结果,并通过模仿经验数据的广泛模拟来支持它们。我们在样本量约为 20,000 和 >120,000 的模拟研究中观察到,将 P 值阈值放宽至 5 × 10-7 会增加发现,但代价是额外基因座的假阳性结果分别为 18% 和 8%。 FDR 和贝叶斯 FDR 对于两种样本量都得到了很好的控制,除了一些例外情况,这些例外情况在不太严格的真阳性定义下消失,并且两种方法产生相似的结果。我们的工作量化了在大型研究中使用宽松的 P 值阈值以增加其真正阳性发现的价值,但也显示了在中等规模的研究中由于此类行为而导致的过多假阳性率。这些结果可以指导研究人员考虑复制研究和下游工作(例如基因组富集或通路分析)中的不同阈值。最后,我们证明了 GWAS 中 FDR 控制程序的可行性。