14996
当前位置: 首页   >  课题组新闻   >  (Nature Genetics): 周涠/毕文健等开发出针对罕见变异遗传位点的聚合检验分析算法:SAIGE-GENE+
(Nature Genetics): 周涠/毕文健等开发出针对罕见变异遗传位点的聚合检验分析算法:SAIGE-GENE+
发布时间:2023-05-13

(下文选自bioart新闻链接:https://mp.weixin.qq.com/s/pNktleleMj-BWMqywZSQjQ)


近年来,随着健康医疗信息化、大数据化和智能化的发展,世界范围内涌现了很多大型生物样本资源库 (Biobank),样本量达到了数以十万甚至数以百万计。利用这些大数据信息进行建模、分析,有助于为生物医学的基础研究和临床研究提供重要的研究线索,在精准医学、复杂疾病智能诊疗等领域也具有重要的研究意义。


目前,UK Biobank数据库已面向全球研究者公开了50万研究个体的全外显子测序数据,为罕见变异位点研究提供了重要的研究资源。对于罕见变异遗传位点,由于其变异率低,传统的单个位点分析方法的统计效力较低。因此,为提高检验效能,常将特定区域内多个遗传位点加以累积,然后利用聚合检验方法评估其整体效应。韩国首尔国立大学的Seunggeun Lee等人提出的SKAT-O算法将Burden tests方法和Kernel-based方法进行优化组合,可以有效控制第一类错误率,并在多种遗传结构下都具有较高的统计效力。近年来,针对目前大型生物样本库样本量大、表型分布不平衡、样本之间具有遗传相关性等实际情况,Seunggeun Lee团队将传统的SKAT-O进一步优化,并提出SAIGE-GENE等多种分析算法

2022年9月22日,周涠、毕文健、赵张琛等在Nature Genetics杂志上发表工作SAIGE-GENE+ improves the efficiency and accuracy of set-based rare variant association tests基于SAIGE-GENE算法进一步提出了改进的SAIGE-GENE+算法,并利用该方法分析了UK Biobank的30种连续变量表型与141种二分类表型,找出了551个与表型具有显著相关性的基因。


SAIGE-GENE+算法具有如下特性:1) 基于混合模型,可以描述样本之间的遗传关联性;2) 支持Burden tests, SKAT与SKAT-O检验方法,因而在不同的遗传模型中都具有较好的统计效力;3) 允许用户基于不同的先验知识,比如遗传位点的功能信息,来设定多种权重以描述单个位点的重要性,同时也支持设定多个变异率的阈值;4) 采用一系列技术方法来控制第一类错误率,即使只保留变异率<0.01%的罕见变异位点且表型高度不平衡,算法仍然足够准确; 5) 将核心代码用C++进行优化,使其具备更好的运算效率与内存控制。特别的,SAIGE-GENE+算法可以在UK Biobank的RAP平台上运行,为感兴趣的研究者提供了便利的分析工具 (https://saigegit.github.io/SAIGE-doc/)


周涠、毕文健与Zhangchen Zhao为本文的共同第一作者,周涠、毕文健与Seunggeun Lee为本文的共同通讯作者,美国Broad Institute,北京大学基础医学院与韩国首尔国立大学为本文的通讯单位。
原文链接:https://doi.org/10.1038/s41588-022-01178-w