表观遗传学是上世纪80年代开始被广为研究的一个生物学分支,其旨在研究与经典遗传学法则不符的现象及其维持的机制。表观遗传调控子(Epigenetic Regulators,ERs)是指可催化、调控、擦除DNA或组蛋白上的化学修饰的一类蛋白。从上世纪90年代开始,表观遗传调控子就是生物化学领域的研究热点。具有表观遗传学修饰结构域(例如含溴结构域)的表观遗传调控子可以从功能上分为以下四个类别:reader(识别者), writer(写入者), eraser(擦除者)和remodeler(重塑者)。
表观遗传调控子与众多物种的进化和癌症的产生发展有关。目前,已经在人类中发现了600多个已知的具有可以通过表观遗传方式催化DNA甲基化和组蛋白修饰底物的表观遗传调控子。目前对这些蛋白及其对应的基因的认识还很肤浅,并没有形成普适性的认识。且对这些基因的功能研究大部分集中于人类,在其它物种中并没有全面的基因或蛋白列表。于是,国科大温州研究院癌症诊断分子靶标识别研究团队(课题组网站:https://www.x-mol.com/groups/bioinfolv)PI吕杰研究员等人构建了一个关于表观遗传调控子的全面的数据资源。该数据资源包括23个物种的表观调控子的蛋白信息,是目前最为全面的表观调控子基因/蛋白资源。
该团队基于蛋白质一级序列通过分子进化分子方法识别新的表观调控蛋白结构域。首先,收集40余个表观遗传学调控相关的结构域基序(pFAM motif),基于隐马尔可夫模型扫描23个主要物种的蛋白质一级序列的结构域基序。其次,保留统计学显著的蛋白——结构域关系对,形成蛋白和结构域的关系的数据表格。最后,构建各个结构域的系统发生树,识别基因复制事件和基因(duplicated genes)。分子进化分析结果显示:表观遗传调控子从脊椎动物开始集中出现(蓝色深浅度和表观遗传调控子的数量正相关),暗示大量之前未报道的表观遗传调控子可能是脊椎动物以及更高等的动物进化所必须的蛋白酶。他们发现了大量的基因复制事件(图1)。例如,BRPF1基因的进化树展示了该基因进化的2个复制点,以这两个复制点基因为起点(祖先),新生成了2个新的基因,进一步的计算功能分析显示这两个基因和BRPF1的功能不同,表明基因复制产生的基因功能可能有所不同。
该研究进一步研究了进化过程中复制的新的表观遗传调控子(duplicated genes)是否具有与被复制的祖先基因不同的表达模式。于是,他们基于公共数据库中的基因表达数据集进行了人和小鼠以及9个羊膜类动物中的不同组织的表观遗传调控子的比较基因组学分析。对于每个基因和组织,计算特异性分数TS score,该分数是通过在一个给定组织中的基因表达相对于所有组织的平均表达水平而计算出来。利用该分数,发现睾丸组织是所有表观遗传调控子中的最与众不同的组织。相反,像心脏这样的器官,几乎没有表现出组织特异性表达模式。此外,还发现表观遗传调控子的基因表达模式在人和小鼠中是比较保守的。
图1. 23个物种的表观遗传调控子的分子进化分析(演示目的,与原文不同)。
进一步对羊膜类动物的不同类型表观遗传调控子在不同组织的表达数据进行PCA分析,发现染色质重塑者和DNA甲基化擦除者的离群基因数目要多于预期(图2)。PCA loading结果还表明表观遗传调控子的组织间的表达差异要远大于物种间的差异。各个羊膜类动物的组织特异性基因的功能富集分析表明这些组织特异性基因和表观遗传调控功能相关,这与预期一致(图2)。
图2. 羊膜类动物的基因表达分析。
该研究还进行了具有相同组蛋白修饰底物的表观遗传学调控子的分析,发现具有相同底物的表观遗传学调控子具有差异较大的表达模式,并且这种表达差异不能由基因表达检测引起的噪声所解释(图3)。作者推测这种表达差异可能和表观遗传学调控子的组织特异的功能有关。
图3. 人类的特定组蛋白修饰底物相关的表观遗传调控子的表达分析。
总之,该研究工作汇总了23个物种中的表观遗传调控子,发现一些表观遗传调控子在各物种和不同哺乳动物器官中的不同寻常的表达模式,这为理解表观遗传学修饰调控的细胞类型特异的表达奠定基础。同时,本研究还对表观遗传调控子在物种和组织进化的作用提供了一些解释。此外,还通过计算方法识别了一些组织特异表达的表观遗传调控子。这些关键数据为表观遗传调控子的后续分子进化分析和功能研究奠定基础。本研究已在线发表在《Epigenetics》期刊(中科院升级版最新分区,生物学2区),题为A comprehensive atlas of epigenetic regulators reveals tissue-specific epigenetic regulation patterns,全文链接: https://www.tandfonline.com/doi/full/10.1080/15592294.2022.2139067。该研究受到国科大温州研究院启动经费和国家自然科学基金的支持。