(AJHG): 毕文健等开发出一种针对大样本量基因组分析的新算法—SPACox - 课题组新闻

(下文选自bioart新闻链接：https://mp.weixin.qq.com/s/p6HD3e4qJCVD-kJNycCXiw)

最近几年，随着测序技术和电子健康记录（Electroic Health Record, EHR）的发展，很多大型的生物样本资源库（Biobank）为研究者提供了非常详尽的大样本信息。比如UK-Biobank就在英国收集并公开了50万个年龄（招募时）在40-69岁之间英国人的遗传和临床数据。基于生物样本库资源，研究人员分析了各种健康与疾病相关的表型，发现了数以千计的关联位点。这些发现有助于我们了解疾病的发病机制，进而设计个体化治疗方案。

对于大型生物样本库的基因组分析，由于其样本量大，遗传位点多，相应的分析算法必须要有很好的计算效率。此外，很多表型的分布是高度不均衡的，比如对于某些疾病，几十万的研究个体中可能只有几百个甚至几十个患病个体，这会使得传统的正态分布近似不再准确。针对这些新的困难与挑战，密歇根大学的Seunggeun Lee团队提出了多个新算法解决了病例对照研究 (Case-control study) 下的单位点分析【1,2】，多位点分析【3,4】以及基因-环境交互作用分析【5】等重要问题，相关结果都已经在线公开(http://pheweb.sph.umich.edu/SAIGE-UKB/ ; https://www.leelabsg.org/resources )。但针对很多其他表型，现在仍缺少有效的分析方法。其中，生存数据是一类刻画观察对象在一定时间内是否发生事件、以及何时发生事件的数据类型，其广泛存在于医学、生物学等领域以刻画死亡或疾病信息。Cox比例风险回归模型是生存数据分析中应用最广泛的一种半参数回归模型，但由于其Fisher信息矩阵具有不对称性，当事件发生率低或遗传位点变异率低时，该方法会产生大量的假阳性与假阴性结果，造成分析结果不可靠。似然比检验方法更准确，但需要大量的运算时间，并不适用于大型生物样本库的数据分析。

2020年06月24日，密歇根大学Seunggeun Lee团队（第一作者为毕文健博士）在The American Journal of Human Genetics杂志上发表文章A Fast and Accurate Method for Genome-Wide Time-to-event Data Analysis and Its Application to UK Biobank，提出了一个针对于大样本量全基因组生存分析数据的新算法SPACox。

该算法创新地提出一种经验鞍点近似方法，利用经验累积量生成函数来估计统计量的分布函数。相较于传统的正态分布近似方法，该方法不依赖Fisher信息矩阵，具有更好的估计精度，即使对于极小的事件发生率和罕见的遗传变异，新方法仍然可以很好地控制第一类错误率，避免分析出现假阳性结果。同时该方法具有很高的运算效率，比现有方法快76-252倍，是现阶段唯一适用于大型生物样本库的生存数据分析方法。更重要的是，经验鞍点近似方法不需要严格的理论推导来估计方差，具有很广泛的应用价值，很容易推广到其他数据类型的分析中。候选人将该方法应用于UK Biobank数据中，分析了高血压、糖尿病等12种常见复杂疾病，共发现了611个与疾病相关的遗传位点，其中包含38个新发现的致病位点，这些发现对于人们了解复杂疾病的发病进程提供了重要线索。

在本研究中，毕文健博士等人提出的算法为大型生物样本库的生存数据分析提供了更快速、更准确的分析工具，是目前唯一适用的分析方法，填补了该领域的重要空白。SPACox的R包可以从网站https://github.com/WenjianBI/SPA Cox 下载。针对12种复杂疾病的UK-Biobank数据分析结果可从网站https://www.leelabsg.org/resources 下载。

原文链接：

https://doi.org/10.1016/j.ajhg.2020.06.003