当前位置:
X-MOL 学术
›
Genet. Sel. Evol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Estimating genomic relationships of metafounders across and within breeds using maximum likelihood, pseudo-expectation–maximization maximum likelihood and increase of relationships
Genetics Selection Evolution ( IF 3.6 ) Pub Date : 2024-05-02 , DOI: 10.1186/s12711-024-00892-9 Andres Legarra 1 , Matias Bermann 2 , Quanshun Mei 3 , Ole F Christensen 4
Genetics Selection Evolution ( IF 3.6 ) Pub Date : 2024-05-02 , DOI: 10.1186/s12711-024-00892-9 Andres Legarra 1 , Matias Bermann 2 , Quanshun Mei 3 , Ole F Christensen 4
Affiliation
The theory of “metafounders” proposes a unified framework for relationships across base populations within breeds (e.g. unknown parent groups), and base populations across breeds (crosses) together with a sensible compatibility with genomic relationships. Considering metafounders might be advantageous in pedigree best linear unbiased prediction (BLUP) or single-step genomic BLUP. Existing methods to estimate relationships across metafounders $${\varvec{\Gamma}}$$ are not well adapted to highly unbalanced data, genotyped individuals far from base populations, or many unknown parent groups (within breed per year of birth). We derive likelihood methods to estimate $${\varvec{\Gamma}}$$ . For a single metafounder, summary statistics of pedigree and genomic relationships allow deriving a cubic equation with the real root being the maximum likelihood (ML) estimate of $${\varvec{\Gamma}}$$ . This equation is tested with Lacaune sheep data. For several metafounders, we split the first derivative of the complete likelihood in a term related to $${\varvec{\Gamma}}$$ , and a second term related to Mendelian sampling variances. Approximating the first derivative by its first term results in a pseudo-EM algorithm that iteratively updates the estimate of $${\varvec{\Gamma}}$$ by the corresponding block of the H-matrix. The method extends to complex situations with groups defined by year of birth, modelling the increase of $${\varvec{\Gamma}}$$ using estimates of the rate of increase of inbreeding ( $$\Delta F$$ ), resulting in an expanded $${\varvec{\Gamma}}$$ and in a pseudo-EM+ $$\Delta F$$ algorithm. We compare these methods with the generalized least squares (GLS) method using simulated data: complex crosses of two breeds in equal or unsymmetrical proportions; and in two breeds, with 10 groups per year of birth within breed. We simulate genotyping in all generations or in the last ones. For a single metafounder, the ML estimates of the Lacaune data corresponded to the maximum. For simulated data, when genotypes were spread across all generations, both GLS and pseudo-EM(+ $$\Delta F$$ ) methods were accurate. With genotypes only available in the most recent generations, the GLS method was biased, whereas the pseudo-EM(+ $$\Delta F$$ ) approach yielded more accurate and unbiased estimates. We derived ML, pseudo-EM and pseudo-EM+ $$\Delta F$$ methods to estimate $${\varvec{\Gamma}}$$ in many realistic settings. Estimates are accurate in real and simulated data and have a low computational cost.
中文翻译:
使用最大似然、伪期望-最大化、最大似然和关系增加来估计品种间和品种内元创始人的基因组关系
“元创始人”理论提出了一个统一的框架,用于品种内基础种群之间的关系(例如未知的亲本群体),以及跨品种的基础种群(杂交),以及与基因组关系的合理兼容性。考虑元创始人在谱系最佳线性无偏预测 (BLUP) 或单步基因组 BLUP 中可能具有优势。现有的估计元创始人 $${\varvec{\Gamma}}$$ 之间关系的方法不能很好地适应高度不平衡的数据、远离基础种群的基因分型个体或许多未知的亲本群体(在出生年份的品种内)。我们推导出似然方法来估计 $${\varvec{\Gamma}}$$ 。对于单个元创始人,谱系和基因组关系的汇总统计允许推导出一个三次方程,其中实根是 $${\varvec{\Gamma}}$$ 的最大似然 (ML) 估计值。该方程式使用 Lacaune 绵羊数据进行了检验。对于几个元创始人,我们将完全似然的一阶导数拆分为与 $${\varvec{\Gamma}}$$ 相关的项,以及与孟德尔采样方差相关的第二项。用第一项近似一阶导数会产生一个伪电磁算法,该算法通过 H 矩阵的相应块迭代更新 $${\varvec{\Gamma}}$$ 的估计值。该方法扩展到由出生年份定义的群体的复杂情况,使用近亲繁殖增长率的估计值( $$\Delta F$$ )对 $${\varvec{\Gamma}}$$ 的增加进行建模,从而得到扩展的 $${\varvec{\Gamma}}$$ 和伪 EM+ $$\Delta F$$ 算法。 我们将这些方法与使用模拟数据的广义最小二乘法 (GLS) 方法进行了比较:两个品种的复杂杂交,比例相等或不对称;和两个品种,品种内每年出生 10 组。我们模拟所有世代或最后一代的基因分型。对于单个 metafounder,Lacaune 数据的 ML 估计值对应于最大值。对于模拟数据,当基因型分布在所有世代中时,GLS 和伪 EM(+ $$\Delta F$$ ) 方法都是准确的。由于基因型仅在最近几代中可用,因此 GLS 方法存在偏差,而伪 EM(+ $$\Delta F$$ ) 方法产生了更准确和无偏倚的估计值。我们推导出了 ML、pseudo-EM和 pseudo-EM+ $$\Delta F$$ 方法,以在许多现实环境中估计 $${\varvec{\Gamma}}$$。估计值在真实数据和模拟数据中是准确的,并且计算成本较低。
更新日期:2024-05-02
中文翻译:
使用最大似然、伪期望-最大化、最大似然和关系增加来估计品种间和品种内元创始人的基因组关系
“元创始人”理论提出了一个统一的框架,用于品种内基础种群之间的关系(例如未知的亲本群体),以及跨品种的基础种群(杂交),以及与基因组关系的合理兼容性。考虑元创始人在谱系最佳线性无偏预测 (BLUP) 或单步基因组 BLUP 中可能具有优势。现有的估计元创始人 $${\varvec{\Gamma}}$$ 之间关系的方法不能很好地适应高度不平衡的数据、远离基础种群的基因分型个体或许多未知的亲本群体(在出生年份的品种内)。我们推导出似然方法来估计 $${\varvec{\Gamma}}$$ 。对于单个元创始人,谱系和基因组关系的汇总统计允许推导出一个三次方程,其中实根是 $${\varvec{\Gamma}}$$ 的最大似然 (ML) 估计值。该方程式使用 Lacaune 绵羊数据进行了检验。对于几个元创始人,我们将完全似然的一阶导数拆分为与 $${\varvec{\Gamma}}$$ 相关的项,以及与孟德尔采样方差相关的第二项。用第一项近似一阶导数会产生一个伪电磁算法,该算法通过 H 矩阵的相应块迭代更新 $${\varvec{\Gamma}}$$ 的估计值。该方法扩展到由出生年份定义的群体的复杂情况,使用近亲繁殖增长率的估计值( $$\Delta F$$ )对 $${\varvec{\Gamma}}$$ 的增加进行建模,从而得到扩展的 $${\varvec{\Gamma}}$$ 和伪 EM+ $$\Delta F$$ 算法。 我们将这些方法与使用模拟数据的广义最小二乘法 (GLS) 方法进行了比较:两个品种的复杂杂交,比例相等或不对称;和两个品种,品种内每年出生 10 组。我们模拟所有世代或最后一代的基因分型。对于单个 metafounder,Lacaune 数据的 ML 估计值对应于最大值。对于模拟数据,当基因型分布在所有世代中时,GLS 和伪 EM(+ $$\Delta F$$ ) 方法都是准确的。由于基因型仅在最近几代中可用,因此 GLS 方法存在偏差,而伪 EM(+ $$\Delta F$$ ) 方法产生了更准确和无偏倚的估计值。我们推导出了 ML、pseudo-EM和 pseudo-EM+ $$\Delta F$$ 方法,以在许多现实环境中估计 $${\varvec{\Gamma}}$$。估计值在真实数据和模拟数据中是准确的,并且计算成本较低。