14994
当前位置: 首页   >  课题组新闻   >  (AJHG): 毕文健课题组开发出针对罕见变异遗传位点的聚合检验分析算法——POLMM-GENE
(AJHG): 毕文健课题组开发出针对罕见变异遗传位点的聚合检验分析算法——POLMM-GENE
发布时间:2023-05-13

(下文选自bioartMED新闻链接:https://mp.weixin.qq.com/s/luPTYQglqrdv8egzpRXNHA)


近年来,随着健康医疗信息化、大数据化和智能化的发展,世界范围内涌现了很多大型生物样本资源库 (Biobank),样本量达到了数以十万甚至数以百万计。利用这些大数据信息进行建模、分析,有助于为生物医学的基础研究和临床研究提供重要的研究线索,在精准医学、复杂疾病智能诊疗等领域也具有重要的研究意义。


目前,UK Biobank数据库已面向全球研究者公开了50万研究个体的全外显子测序数据,为罕见变异位点研究提供了重要的研究资源。对于罕见变异遗传位点,由于其变异率低,传统的单个位点分析方法的统计效力较低。因此,为提高检验效能,常将特定区域内多个罕见遗传位点加以累积,然后利用聚合检验方法评估其整体效应。韩国首尔国立大学的Seunggeun Lee等人提出的SKAT-O算法【1】将Burden tests方法和Kernel-based方法进行优化组合,可以有效控制第一类错误率,并在多种遗传结构下都具有较高的统计效力。近年来,针对目前大型生物样本库样本量大、表型分布不平衡、样本之间具有遗传相关性等实际情况,Seunggeun Lee团队将传统的SKAT-O进一步优化,并提出SAIGE-GENE, SAIGE-GENE+等多种分析算法用于分析连续表型以及二分类表型【2-4】


多分类表型数据是一种普遍存在的数据类型,常见于调查问卷,在大型生物样本库中用来描述生活方式、精神状态或是对特定事物的喜好程度。比如UK Biobank中有150种对于食物或其他健康相关的多分类表型,受访者根据喜好从1到9进行打分,1为非常不喜欢,9为非常喜欢。多分类表型数据的分布有时高度不平衡,比如对于抽烟行为,90%的受访者非常不喜欢,仅有不到1%的受访者非常喜欢。2021年,毕文健等提出POLMM算法用于分析多分类表型数据的全基因组关联分析,该算法利用比例优势混合模型来刻画混杂因子、遗传位点和遗传关联性对于多分类表型的影响,将多分类表型转化为多个彼此关联的二分类表型,利用惩罚拟似然函数、平均信息的受限最大似然等方法进行参数辨识。该算法首次将混合模型引入针对多分类表型的全基因组关联分析,可以很好地控制样本之间的遗传关联性对于结果的影响,同时也首次将鞍点近似方法引入多分类表型数据分析,从而具备极强的鲁棒性和统计效力。但是针对多分类表型数据的聚合检验仍缺乏有效的分析方法,这极大限制了罕见变异遗传位点的研究。


2023年4月4日,毕文健、周涠等在American Journal of Human Genetics杂志上发表工作Scalable mixed model methods for set-based association studies on large-scale categorical data analysis and its application to exome sequencing data in UK Biobank在POLMM算法的基础上进一步提出了POLMM-GENE算法,并利用该方法分析了UK Biobank的5种多分类表型,找出了54个与表型具有显著相关性的基因


POLMM-GENE算法具有如下特性:1) 更准确的描述了多分类表型数据,因此比SAIGE-GENE+具有更高的统计效力;2) 基于混合模型,可以描述样本之间的遗传关联性;3) 支持Burden tests, SKAT与SKAT-O检验方法,因而在不同的遗传模型中都具有较好的统计效力;4) 允许用户基于不同的先验知识,比如遗传位点的功能信息,来设定多种权重以描述单个位点的重要性,同时也支持设定多个变异率的阈值;5) 采用一系列技术方法来控制第一类错误率,即使只保留变异率<0.01%的罕见变异位点且表型高度不平衡,算法仍然足够准确; 6) 将核心代码用C++进行优化,使其具备更好的运算效率与内存控制。特别的,POLMM-GENE算法可以在UK Biobank的RAP平台上运行,为感兴趣的研究者提供了便利的分析工具。


毕文健与周涠为本文的共同第一作者,毕文健与Seunggeun Lee为本文的共同通讯作者,北京大学基础医学院为本文的第一单位和通讯单位。北京大学基础医学院张培培老师和北京大学第六医院岳伟华教授、孙瑶瑶博士是本项工作的主要贡献者。