(AJHG): 毕文健课题组开发出针对罕见变异遗传位点的聚合检验分析算法——POLMM-GENE - 课题组新闻

(下文选自bioartMED新闻链接：https://mp.weixin.qq.com/s/luPTYQglqrdv8egzpRXNHA)

近年来，随着健康医疗信息化、大数据化和智能化的发展，世界范围内涌现了很多大型生物样本资源库 (Biobank)，样本量达到了数以十万甚至数以百万计。利用这些大数据信息进行建模、分析，有助于为生物医学的基础研究和临床研究提供重要的研究线索，在精准医学、复杂疾病智能诊疗等领域也具有重要的研究意义。

目前，UK Biobank数据库已面向全球研究者公开了50万研究个体的全外显子测序数据，为罕见变异位点研究提供了重要的研究资源。对于罕见变异遗传位点，由于其变异率低，传统的单个位点分析方法的统计效力较低。因此，为提高检验效能，常将特定区域内多个罕见遗传位点加以累积，然后利用聚合检验方法评估其整体效应。韩国首尔国立大学的Seunggeun Lee等人提出的SKAT-O算法【1】将Burden tests方法和Kernel-based方法进行优化组合，可以有效控制第一类错误率，并在多种遗传结构下都具有较高的统计效力。近年来，针对目前大型生物样本库样本量大、表型分布不平衡、样本之间具有遗传相关性等实际情况，Seunggeun Lee团队将传统的SKAT-O进一步优化，并提出SAIGE-GENE, SAIGE-GENE+等多种分析算法用于分析连续表型以及二分类表型【2-4】。

多分类表型数据是一种普遍存在的数据类型，常见于调查问卷，在大型生物样本库中用来描述生活方式、精神状态或是对特定事物的喜好程度。比如UK Biobank中有150种对于食物或其他健康相关的多分类表型，受访者根据喜好从1到9进行打分，1为非常不喜欢，9为非常喜欢。多分类表型数据的分布有时高度不平衡，比如对于抽烟行为，90%的受访者非常不喜欢，仅有不到1%的受访者非常喜欢。2021年，毕文健等提出POLMM算法用于分析多分类表型数据的全基因组关联分析，该算法利用比例优势混合模型来刻画混杂因子、遗传位点和遗传关联性对于多分类表型的影响，将多分类表型转化为多个彼此关联的二分类表型，利用惩罚拟似然函数、平均信息的受限最大似然等方法进行参数辨识。该算法首次将混合模型引入针对多分类表型的全基因组关联分析，可以很好地控制样本之间的遗传关联性对于结果的影响，同时也首次将鞍点近似方法引入多分类表型数据分析，从而具备极强的鲁棒性和统计效力。但是针对多分类表型数据的聚合检验仍缺乏有效的分析方法，这极大限制了罕见变异遗传位点的研究。

2023年4月4日，毕文健、周涠等在American Journal of Human Genetics杂志上发表工作Scalable mixed model methods for set-based association studies on large-scale categorical data analysis and its application to exome sequencing data in UK Biobank。在POLMM算法的基础上进一步提出了POLMM-GENE算法，并利用该方法分析了UK Biobank的5种多分类表型，找出了54个与表型具有显著相关性的基因。

POLMM-GENE算法具有如下特性：1) 更准确的描述了多分类表型数据，因此比SAIGE-GENE+具有更高的统计效力；2) 基于混合模型，可以描述样本之间的遗传关联性；3) 支持Burden tests, SKAT与SKAT-O检验方法，因而在不同的遗传模型中都具有较好的统计效力；4) 允许用户基于不同的先验知识，比如遗传位点的功能信息，来设定多种权重以描述单个位点的重要性，同时也支持设定多个变异率的阈值；5) 采用一系列技术方法来控制第一类错误率，即使只保留变异率<0.01%的罕见变异位点且表型高度不平衡，算法仍然足够准确; 6) 将核心代码用C++进行优化，使其具备更好的运算效率与内存控制。特别的，POLMM-GENE算法可以在UK Biobank的RAP平台上运行，为感兴趣的研究者提供了便利的分析工具。

毕文健与周涠为本文的共同第一作者，毕文健与Seunggeun Lee为本文的共同通讯作者，北京大学基础医学院为本文的第一单位和通讯单位。北京大学基础医学院张培培老师和北京大学第六医院岳伟华教授、孙瑶瑶博士是本项工作的主要贡献者。