当前位置:
X-MOL 学术
›
Genet. Sel. Evol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Marker effect p-values for single-step GWAS with the algorithm for proven and young in large genotyped populations
Genetics Selection Evolution ( IF 3.6 ) Pub Date : 2024-08-22 , DOI: 10.1186/s12711-024-00925-3 Natália Galoro Leite 1 , Matias Bermann 1 , Shogo Tsuruta 1 , Ignacy Misztal 1 , Daniela Lourenco 1
Genetics Selection Evolution ( IF 3.6 ) Pub Date : 2024-08-22 , DOI: 10.1186/s12711-024-00925-3 Natália Galoro Leite 1 , Matias Bermann 1 , Shogo Tsuruta 1 , Ignacy Misztal 1 , Daniela Lourenco 1
Affiliation
Single-nucleotide polymorphism (SNP) effects can be backsolved from ssGBLUP genomic estimated breeding values (GEBV) and used for genome-wide association studies (ssGWAS). However, obtaining p-values for those SNP effects relies on the inversion of dense matrices, which poses computational limitations in large genotyped populations. In this study, we present a method to approximate SNP p-values for ssGWAS with many genotyped animals. This method relies on the combination of a sparse approximation of the inverse of the genomic relationship matrix ( $${\mathbf{G}}_{\mathbf{A}\mathbf{P}\mathbf{Y}}^\mathbf{-1}$$ ) built with the algorithm for proven and young ( $$\text{APY}$$ ) and an approximation of the prediction error variance of SNP effects which does not require the inversion of the left-hand side (LHS) of the mixed model equations. To test the proposed p-value computing method, we used a reduced genotyped population of 50K genotyped animals and compared the approximated SNP p-values with benchmark p-values obtained with the direct inverse of LHS built with an exact genomic relationship matrix ( $${\mathbf{G}}^\mathbf{-1})$$ . Then, we applied the proposed approximation method to obtain SNP p-values for a larger genotyped population composed of 450K genotyped animals. The same genomic regions on chromosomes 7 and 20 were identified across all p-value computing methods when using 50K genotyped animals. In terms of computational requirements, obtaining p-values with the proposed approximation reduced the wall-clock time by 38 times and the memory requirement by ten times compared to using the exact inversion of the LHS. When the approximation was applied to a population of 450K genotyped animals, two new significant regions on chromosomes 6 and 14 were uncovered, indicating an increase in GWAS detection power when including more genotypes in the analyses. The process of obtaining p-values with the approximation and 450K genotyped individuals took 24.5 wall-clock hours and 87.66GB of memory, which is expected to increase linearly with the addition of noncore genotyped individuals. With the proposed method, obtaining p-values for SNP effects in ssGWAS is computationally feasible in large genotyped populations. The computational cost of obtaining p-values in ssGWAS may no longer be a limitation in extensive populations with many genotyped animals.
中文翻译:
单步 GWAS 的标记效应 p 值,其算法适用于大型基因分型人群中经过验证的和年轻的人群
单核苷酸多态性 (SNP) 效应可以从 ssGBLUP 基因组估计育种值 (GEBV) 中反求解,并用于全基因组关联研究 (ssGWAS)。然而,获得这些 SNP 效应的 p 值依赖于密集矩阵的反转,这在大型基因分型群体中造成了计算限制。在这项研究中,我们提出了一种对许多基因分型动物的 ssGWAS 的 SNP p 值进行近似的方法。该方法依赖于基因组关系矩阵逆矩阵的稀疏近似的组合 ( $${\mathbf{G}}_{\mathbf{A}\mathbf{P}\mathbf{Y}}^\mathbf{ -1}$$ )使用经过验证的和年轻的算法( $$\text{APY}$$ )构建,并且是 SNP 效应的预测误差方差的近似值,不需要左侧的反转(LHS )的混合模型方程。为了测试所提出的 p 值计算方法,我们使用了 50K 基因分型动物的简化基因分型群体,并将近似的 SNP p 值与通过精确基因组关系矩阵构建的 LHS 的直接逆获得的基准 p 值进行了比较( $$ {\mathbf{G}}^\mathbf{-1})$$ 。然后,我们应用所提出的近似方法来获得由 450K 基因分型动物组成的更大基因分型群体的 SNP p 值。当使用 50K 基因分型动物时,所有 p 值计算方法都鉴定出了 7 号和 20 号染色体上的相同基因组区域。就计算要求而言,与使用 LHS 的精确反演相比,使用所提出的近似值获取 p 值可将挂钟时间减少 38 倍,将内存需求减少 10 倍。 当将近似值应用于 45 万基因型动物群体时,发现了 6 号和 14 号染色体上的两个新的重要区域,这表明在分析中包含更多基因型时 GWAS 检测能力有所提高。获得近似值和 450K 基因分型个体的 p 值的过程需要 24.5 个挂钟小时和 87.66GB 内存,预计内存会随着非核心基因分型个体的添加而线性增加。利用所提出的方法,在大型基因分型群体中获得 ssGWAS 中 SNP 效应的 p 值在计算上是可行的。在 ssGWAS 中获得 p 值的计算成本可能不再是具有许多基因分型动物的广泛群体的限制。
更新日期:2024-08-22
中文翻译:
单步 GWAS 的标记效应 p 值,其算法适用于大型基因分型人群中经过验证的和年轻的人群
单核苷酸多态性 (SNP) 效应可以从 ssGBLUP 基因组估计育种值 (GEBV) 中反求解,并用于全基因组关联研究 (ssGWAS)。然而,获得这些 SNP 效应的 p 值依赖于密集矩阵的反转,这在大型基因分型群体中造成了计算限制。在这项研究中,我们提出了一种对许多基因分型动物的 ssGWAS 的 SNP p 值进行近似的方法。该方法依赖于基因组关系矩阵逆矩阵的稀疏近似的组合 ( $${\mathbf{G}}_{\mathbf{A}\mathbf{P}\mathbf{Y}}^\mathbf{ -1}$$ )使用经过验证的和年轻的算法( $$\text{APY}$$ )构建,并且是 SNP 效应的预测误差方差的近似值,不需要左侧的反转(LHS )的混合模型方程。为了测试所提出的 p 值计算方法,我们使用了 50K 基因分型动物的简化基因分型群体,并将近似的 SNP p 值与通过精确基因组关系矩阵构建的 LHS 的直接逆获得的基准 p 值进行了比较( $$ {\mathbf{G}}^\mathbf{-1})$$ 。然后,我们应用所提出的近似方法来获得由 450K 基因分型动物组成的更大基因分型群体的 SNP p 值。当使用 50K 基因分型动物时,所有 p 值计算方法都鉴定出了 7 号和 20 号染色体上的相同基因组区域。就计算要求而言,与使用 LHS 的精确反演相比,使用所提出的近似值获取 p 值可将挂钟时间减少 38 倍,将内存需求减少 10 倍。 当将近似值应用于 45 万基因型动物群体时,发现了 6 号和 14 号染色体上的两个新的重要区域,这表明在分析中包含更多基因型时 GWAS 检测能力有所提高。获得近似值和 450K 基因分型个体的 p 值的过程需要 24.5 个挂钟小时和 87.66GB 内存,预计内存会随着非核心基因分型个体的添加而线性增加。利用所提出的方法,在大型基因分型群体中获得 ssGWAS 中 SNP 效应的 p 值在计算上是可行的。在 ssGWAS 中获得 p 值的计算成本可能不再是具有许多基因分型动物的广泛群体的限制。