当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Distance plus attention for binding affinity prediction
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-05-12 , DOI: 10.1186/s13321-024-00844-x Julia Rahman 1 , M A Hakim Newton 2, 3 , Mohammed Eunus Ali 4 , Abdul Sattar 2
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-05-12 , DOI: 10.1186/s13321-024-00844-x Julia Rahman 1 , M A Hakim Newton 2, 3 , Mohammed Eunus Ali 4 , Abdul Sattar 2
Affiliation
Protein-ligand binding affinity plays a pivotal role in drug development, particularly in identifying potential ligands for target disease-related proteins. Accurate affinity predictions can significantly reduce both the time and cost involved in drug development. However, highly precise affinity prediction remains a research challenge. A key to improve affinity prediction is to capture interactions between proteins and ligands effectively. Existing deep-learning-based computational approaches use 3D grids, 4D tensors, molecular graphs, or proximity-based adjacency matrices, which are either resource-intensive or do not directly represent potential interactions. In this paper, we propose atomic-level distance features and attention mechanisms to capture better specific protein-ligand interactions based on donor-acceptor relations, hydrophobicity, and $$\pi $$ -stacking atoms. We argue that distances encompass both short-range direct and long-range indirect interaction effects while attention mechanisms capture levels of interaction effects. On the very well-known CASF-2016 dataset, our proposed method, named Distance plus Attention for Affinity Prediction (DAAP), significantly outperforms existing methods by achieving Correlation Coefficient (R) 0.909, Root Mean Squared Error (RMSE) 0.987, Mean Absolute Error (MAE) 0.745, Standard Deviation (SD) 0.988, and Concordance Index (CI) 0.876. The proposed method also shows substantial improvement, around 2% to 37%, on five other benchmark datasets. The program and data are publicly available on the website https://gitlab.com/mahnewton/daap. Scientific Contribution Statement This study innovatively introduces
distance-based features to predict protein-ligand binding affinity, capitalizing on
unique molecular interactions. Furthermore, the incorporation of protein sequence
features of specific residues enhances the model’s proficiency in capturing intricate
binding patterns. The predictive capabilities are further strengthened through the
use of a deep learning architecture with attention mechanisms, and an ensemble
approach, averaging the outputs of five models, is implemented to ensure robust
and reliable predictions.
中文翻译:
结合亲和力预测的距离加注意力
蛋白质-配体结合亲和力在药物开发中发挥着关键作用,特别是在识别目标疾病相关蛋白质的潜在配体方面。准确的亲和力预测可以显着减少药物开发的时间和成本。然而,高精度的亲和力预测仍然是一个研究挑战。改进亲和力预测的关键是有效捕获蛋白质和配体之间的相互作用。现有的基于深度学习的计算方法使用 3D 网格、4D 张量、分子图或基于邻近度的邻接矩阵,这些方法要么是资源密集型的,要么不直接表示潜在的相互作用。在本文中,我们提出了原子级距离特征和注意机制,以基于供体-受体关系、疏水性和 $$\pi $$ 堆叠原子捕获更好的特定蛋白质-配体相互作用。我们认为距离涵盖短程直接和长程间接交互效应,而注意力机制捕获交互效应的水平。在非常著名的 CASF-2016 数据集上,我们提出的方法名为距离加注意力相似度预测 (DAAP),显着优于现有方法,实现相关系数 (R) 0.909、均方根误差 (RMSE) 0.987、平均绝对值误差 (MAE) 0.745、标准差 (SD) 0.988 和一致性指数 (CI) 0.876。所提出的方法还显示出在其他五个基准数据集上的显着改进,大约为 2% 到 37%。该程序和数据可在网站 https://gitlab.com/mahnewton/daap 上公开获取。科学贡献声明这项研究创新性地引入了基于距离的特征来预测蛋白质-配体结合亲和力,利用独特的分子相互作用。 此外,特定残基的蛋白质序列特征的结合增强了模型捕获复杂结合模式的能力。通过使用具有注意机制的深度学习架构进一步增强了预测能力,并实施了对五个模型的输出进行平均的集成方法,以确保稳健可靠的预测。
更新日期:2024-05-12
中文翻译:
结合亲和力预测的距离加注意力
蛋白质-配体结合亲和力在药物开发中发挥着关键作用,特别是在识别目标疾病相关蛋白质的潜在配体方面。准确的亲和力预测可以显着减少药物开发的时间和成本。然而,高精度的亲和力预测仍然是一个研究挑战。改进亲和力预测的关键是有效捕获蛋白质和配体之间的相互作用。现有的基于深度学习的计算方法使用 3D 网格、4D 张量、分子图或基于邻近度的邻接矩阵,这些方法要么是资源密集型的,要么不直接表示潜在的相互作用。在本文中,我们提出了原子级距离特征和注意机制,以基于供体-受体关系、疏水性和 $$\pi $$ 堆叠原子捕获更好的特定蛋白质-配体相互作用。我们认为距离涵盖短程直接和长程间接交互效应,而注意力机制捕获交互效应的水平。在非常著名的 CASF-2016 数据集上,我们提出的方法名为距离加注意力相似度预测 (DAAP),显着优于现有方法,实现相关系数 (R) 0.909、均方根误差 (RMSE) 0.987、平均绝对值误差 (MAE) 0.745、标准差 (SD) 0.988 和一致性指数 (CI) 0.876。所提出的方法还显示出在其他五个基准数据集上的显着改进,大约为 2% 到 37%。该程序和数据可在网站 https://gitlab.com/mahnewton/daap 上公开获取。科学贡献声明这项研究创新性地引入了基于距离的特征来预测蛋白质-配体结合亲和力,利用独特的分子相互作用。 此外,特定残基的蛋白质序列特征的结合增强了模型捕获复杂结合模式的能力。通过使用具有注意机制的深度学习架构进一步增强了预测能力,并实施了对五个模型的输出进行平均的集成方法,以确保稳健可靠的预测。