(AJHG): 毕文健等开发出针对多分类表型数据的全基因组关联分析新算法——POLMM - 课题组新闻

(下文选自bioart新闻链接：https://mp.weixin.qq.com/s/OaRsIHtvinyHUCubNIm77A)

近年来，随着健康医疗信息化、大数据化和智能化的发展，世界范围内涌现了很多大型生物样本资源库 (Biobank)，样本量达到了数以十万甚至数以百万计。利用这些大数据信息进行建模、分析，有助于为生物医学的基础研究和临床研究提供重要的研究线索，对精准医学、复杂疾病智能诊疗等领域也具有重要的研究意义。

基于大型生物样本库的全基因组关联分析是目前重要的分析手段之一，但存在一些本质困难。首先，由于其样本量大，遗传位点多，数据分析需要大量运算时间，因此亟需针对大数据进行数学方法的创新，进而提出更快速的分析方法。其次，随着样本量的增加，样本之间的遗传相关性也逐渐成为无法忽视的重要因素。最后，很多表型的分布是高度不均衡的，比如对于某些疾病，几十万的研究个体中可能只有几百个甚至几十个患病个体，这使得传统的正态分布近似不再准确。针对这些新的困难与挑战，密歇根大学的Seunggeun Lee团队针对病例对照研究 (Case-control study) 下的单位点分析【1,2】，多位点分析【3,4】，基因-环境交互作用分析【5】，以及生存数据分析【6】等问题提出了一系列快速有效的新算法并应用于UK Biobank数据中。相关软件包和分析结果都已经在线公开 (https://www.leelabsg.org/resources)。

多分类表型数据是一种普遍存在的数据类型，常见于调查问卷，在大型生物样本库中用来描述生活方式、精神状态或是对特定事物的喜好程度。比如UK Biobank中有150种对于食物或其他健康相关的多分类表型，受访者根据喜好从1到9进行打分，1为非常不喜欢，9为非常喜欢。多分类表型数据的分布有时高度不平衡，比如对于抽烟行为，90%的受访者非常不喜欢，仅有不到1%的受访者非常喜欢。目前针对多分类表型数据的全基因组关联分析方法较少，无法处理样本量大、样本之间存在遗传关联性等常见情况。由于其与连续型表型和两分类表型有本质的区别，将其视为连续性表型或将其转化为两分类表型后进行分析会产生假阳性结果或降低统计效力。

2021年4月8日，密歇根大学Seunggeun Lee团队（毕文健博士为第一作者与共同通讯作者）在The American Journal of Human Genetics杂志上发表文章Efficient mixed model approach for large-scale genome-wide association studies of ordinal categorical phenotypes，提出了一个针对于多分类表型数据的全基因组关联分析新算法POLMM。

该算法利用比例优势混合模型来刻画混杂因子、遗传位点和遗传关联性对于多分类表型的影响，将多分类表型转化为多个彼此关联的二分类表型，利用惩罚拟似然函数、平均信息的受限最大似然等方法进行参数辨识。该算法首次将混合模型引入针对多分类表型的全基因组关联分析，可以很好地控制样本之间的遗传关联性对于结果的影响，同时也首次将鞍点近似方法引入多分类表型数据分析，从而具备极强的鲁棒性和统计效力。数值模拟显示，将多表型数据视为连续性变量(BOLT-LMM)，会造成大量的假阳性结果；而将其视为两分类表型 (SAIGE)，则会显著降低检验的统计效力，无法发现与表型相关的遗传位点。
研究者们将该方法应用于UK Biobank的实际数据，分析了258种多分类表型，共发现了5,885个与表型相关的遗传位点，其中424个(7.2%)为罕见变异位点。

在本研究中，毕文健博士等人提出的算法为大型生物样本库的多分类表型分析提供了更快速、更准确的分析工具，填补了该领域的重要空白。POLMM的R包可以从网站https://github.com/WenjianBI/POLMM 下载。UK-Biobank数据分析结果可从网站https://polmm.leelabsg.org/下载。