文献分享 | Mol Syst Biol | 基于AlphaFold的分子对接预测用于抗生素发现的基准研究 - 组内活动

当前位置：首页 > 组内活动 > 文献分享 | Mol Syst Biol | 基于AlphaFold的分子对接预测用于抗生素发现的基准研究

文献分享 | Mol Syst Biol | 基于AlphaFold的分子对接预测用于抗生素发现的基准研究

发布时间：2024-06-13

今天汇报的文献是22年发表于Mol Syst Biol.题目为基于AlphaFold的分子对接预测用于抗生素发现的基准研究的文章。

文章的研究背景是：

1.药物-靶标相互作用的识别：药物发现的一个主要挑战是识别药物与其靶标蛋白之间的相互作用。传统上，这需要进行大量的生物化学实验，但这些方法通常耗时且昂贵。

2.分子对接（molecular docking）：分子对接是一种常用的计算方法，用于预测小分子（如药物）如何与蛋白质结合。该方法通过模拟小分子在蛋白质结合位点的可能位置，并计算其结合亲和力来预测相互作用。

3.AlphaFold2的出现：AlphaFold2是由DeepMind开发的一种深度学习算法，可以高精度地预测蛋白质的三维结构。它的出现极大地扩展了可用于分子对接的高质量蛋白质结构数量，从而有潜力提高分子对接预测的准确性。

4.计算对接与机器学习结合：尽管AlphaFold2提供了大量高质量的蛋白质结构，但单独使用分子对接技术仍存在预测准确性不足的问题。为此，研究者尝试将分子对接与机器学习方法结合，以提高对蛋白-配体相互作用预测的准确性。

Alphafold3可以根据使用者提供的蛋白质一级序列预测蛋白质三维结构，并且它的预测精度在 AlphaFold2 的基础上进一步提高。这对药物设计，疾病研究，蛋白质工程等领域的发展具有推动作用。本文的研究旨在结合AlphaFold2预测的蛋白质结构和分子对接模拟，来预测抗菌化合物与大肠杆菌（E. coli）必需蛋白质之间的相互作用，并通过机器学习方法对预测结果进行重新评分，以改善预测性能。研究者还通过实验手段（如酶活性测定）验证了这些预测，以评估模型的实际性能。

接下来是结果的展示。首先是对活性化合物的筛选，通过筛选包含最常用的临床抗生素、天然产物以及结构多样的分子，共得到39,128种化合物。将细胞在LB培养基中培养，并以50 μM的浓度对化合物进行筛选，将抑制相对生长达80%的化合物定义为活性化合物。其中218种化合物具有活性（图1B）。其中，大多数（约80%）活性化合物可以归类为已知抗生素的结构类，包括β-内酰胺类、氨基糖苷类、四环素类、喹诺酮类和聚酮类（图1C）。剩余的活性化合物包括已知的抗菌化合物（包括毒素和抗肿瘤化合物）以及对大肠杆菌具有以前未报道的抗菌活性的其他化合物。

接下来利用AlphaFold2预测的蛋白质结构对所有活性化合物的潜在结合靶点进行了分子对接研究。其中活性化合物为上述的218种，并且还随机选取了100种无活性的化合物进行比较。作者推测许多活性化合物主要是通过与大肠杆菌中的必需蛋白质相互作用来发挥抗菌作用的。此前的研究通过转座子介导的插入位点测序和CRISPR干扰筛选确定了大肠杆菌中的必需基因。在此基础上，从三项研究中筛选出在至少两项研究中被确定为必需的基因，共从4000个总基因中选出了296个基因，后通过alphafold2进行蛋白结构的预测。在准备好蛋白质与配体后，利用AutoDock Vina生成了结合构象和亲和力预测。图2A显示了218种活性化合物与296个蛋白生成64,528个结合构象和结合亲和力预测。100种随机的无活性的化合物与296个蛋白生成29600个结合构象和结合亲和力预测。其中将预测亲和力分为三个区间：<-7千卡/摩尔（强预测结合）、<-5千卡/摩尔（中等预测结合）和>-5千卡/摩尔（无预测结合）。活性化合物的预测结果显示在顶部，非活性化合物的预测结果显示在底部。

图2B显示活性化合物与蛋白的结合能在＜-7kcal/mol占9.6%，＜-5kcal/mol占31%。图C显示的是非活性化合物与蛋白的结合能分布，结果与活性化合物与蛋白的结合能类似。图D展示的是对筛选的218种活性化合物中，在＜-7kcal/mol的阈值下有187种被预测至少与三种蛋白质结合，在＜-5kcal/mol的阈值下有207种被预测至少与三种蛋白质结合。此外，图E对筛选的296种必需蛋白质中，在＜-7kcal/mol的阈值下有178种被预测至少与三种化合物结合。在＜-5kcal/mol的阈值下有216种被预测至少与三种化合物结合。同样，非活性化合物与蛋白的结合情况也与其类似。这些发现表明，分子对接不能区分活性和非活性化合物，并指出对接性能的潜在局限性。分子对接确实会产生许多假阳性的结果。接下来作者进行了部分的实验验证。

作者选择了12种具有酶活性的大肠杆菌必需蛋白质作为实验组进行体外酶学实验，其中包括DNA解旋酶，DNA连接酶，RNA聚合酶等。在这些实验中，具有酶活性的蛋白质被重组，通过测量酶活性抑制来评估配体结合。图A展示的是所有活性化合物与12种必须蛋白质之间预测亲和力的交互矩阵，同样也分为3个区间。基于研究表明，半数抑制浓度（IC 50 ）≤50μM的化合物具有足够的毒性，可以作为先导化合物。结果由图B显示，与化合物结合数量最多的是MurA和DNA解旋酶，分别为94个和85个。与化合物结合数量最少的是DNA连接酶和MurC，分别是4个和5个，说明多种化合物广泛抑制酶活性。通过剂量-反应测量发现，命中化合物的IC50值在1.9到195.8μM之间，而非命中化合物的IC50值大于100μM。这表明命中化合物的结合亲和力范围从强（微摩尔级）到弱（百微摩尔级）。并且许多抗生素的IC50值在（亚）微摩尔范围内，因此只有强结合亲和力可能与抗菌作用相关。图C-F表示发现有45种化合物至少对三种测试蛋白具有非特异性抑制作用，并且所有测试的必需蛋白质都被至少四种不同的化合物抑制。说明预测的蛋白质-配体相互作用的广泛性与实验结果一致。图G的t-SNE可视化分析显示蛋白质-配体相互作用形成了少数几个大簇，表明它们在结构上具有相似的相互作用模式，进一步说明了广泛结合性是由特定的蛋白质和配体驱动的。总的来说通过实验验证和统计分析，研究发现了蛋白质-配体相互作用的广泛性和特异性，进一步验证了预测方法的准确性，并指出只有强结合亲和力的化合物才可能具有抗菌作用。

接下来评估了对接模型的性能。将上述实验观察到的“hits”的相互作用与预测的相互作用进行了比较。结果显示如图A-C显示，结合能低于-5千卡/摩尔的情况下，平均真实阳性率分别为59%，平均假阳性率66%，平均准确率为41%。而结合能低于-7千卡/摩尔时，平均真实阳性率分别为30%，平均假阳性率24%，平均准确率为73%。这说明更低的结合能阈值会导致更少的结合作用预测，更低的真实阳性率和更高的准确率。接下来利用ROC曲线将假阳性率与真阳性率绘制在一起，对角线表示随机模型的性能预期。结果显示在测试的12种必需蛋白质中，auROC值的范围从murC的0.18到gyrAB的0.71，平均值为0.48（图4D）。这一评估表明，该方法的平均表现略低于于随机分类。并且模型性能因蛋白质不同而有显著差异，有的蛋白质上表现较好（如gyrAB的auROC为0.71），有的表现较差（如murC的auROC为0.18）。这表明模型性能并不理想。并且发现alphafold的置信度与Auroc没有相关性。Auroc图中存在的蓝色曲线为PDB网站已通过实验确定的蛋白质结构，为了排除模型性能弱的原因是否由使用的蛋白结构质量有关系，因此，将218个活性化合物与这8个已验证的蛋白进行对接，进一步与Alphafold2预测的模型进行比较。结果发现auROC值与预测的结果相似，范围从0.25（glmU）到0.69（gyrAB），平均值为0.46。与预测的模型评估一致，表明模型表现不佳的原因是对接方法，而不是蛋白质结构的质量。

最后利用机器学习对模型进行基准测试和性能提升。使用DOCK6.9和三种基于机器学习的打分函数对AutoDock Vina生成的构象进行预测，实验对象是12种必须蛋白质与活性化合物。通过基准测试发现，平均auROC值在0.46到0.63之间。使用DOCK6.9和PLEC评分的平均auROC值低于仅使用AutoDock Vina的结果，分别为0.46（0.25到0.61的范围）和0.47（0.28到0.63的范围）。相反，用RF-Score、RF-Score-VS或NNScore可以改善模型性能，平均auROC值分别为0.62（0.53到0.69的范围）、0.63（0.46到0.75的范围）和0.58（0.41到0.69的范围）。这些对模型性能的评价表明，某些基于机器学习的评分函数可以提高预测准确性。图B显示了不同的机器学习打分函数对同一批蛋白质-配体对的亲和力预测结果存在显著差异。具体地，图中的各曲线展示了不同打分函数在预测结合亲和力时的表现，其中有些打分函数（如RF-Score和NNScore）在预测结合亲和力时表现较好。其中阴影部分代表小于-7的部分，分别占34%、3.9%、7.3%和33%。这意味着，通过结合不同的打分函数，可能会提高预测的准确度，因此，接下来将AutoDock Vina的基准预测与上述四种基于机器学习的打分函数的预测进行组合，来定义预测的蛋白质-配体相互作用，即满足所有模型的结合亲和力阈值的相互作用。结果如图C-E表明，通过使用模型数量的增加，预测准确性升高高，假阳性率随之降低，而真阳性率降低。这进一步证明，将分子对接与基于机器学习的模型结合起来，可以使人们更好地利用AlphaFold2预测的蛋白质结构进行药物筛选。

最后，文章的结论是：1.预测模型性能有限：尽管结合了AlphaFold2和分子对接模拟，预测蛋白-配体相互作用的模型整体表现较弱，平均auROC仅为0.48，显示出预测能力有限。

2.机器学习方法的改进：通过使用基于机器学习的重新评分方法（如RF-Score、RF-Score-VS、PLEC score和NNScore），模型的预测性能显著提升，平均auROC值可达0.63。

3.实验验证和多效性：体外酶抑制实验验证了模型的广泛多效性，但也表明模型在识别真实相互作用时存在较高的假阳性率。

4.未来改进方向：需要进一步开发和改进蛋白-配体相互作用的建模方法，特别是基于机器学习的评分方法，以更好地利用AlphaFold2进行药物发现。

汇报人：童靖扬