当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MEF-AlloSite: an accurate and robust Multimodel Ensemble Feature selection for the Allosteric Site identification model
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-10-23 , DOI: 10.1186/s13321-024-00882-5 Sadettin Y. Ugurlu, David McDonald, Shan He
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-10-23 , DOI: 10.1186/s13321-024-00882-5 Sadettin Y. Ugurlu, David McDonald, Shan He
A crucial mechanism for controlling the actions of proteins is allostery. Allosteric modulators have the potential to provide many benefits compared to orthosteric ligands, such as increased selectivity and saturability of their effect. The identification of new allosteric sites presents prospects for the creation of innovative medications and enhances our comprehension of fundamental biological mechanisms. Allosteric sites are increasingly found in different protein families through various techniques, such as machine learning applications, which opens up possibilities for creating completely novel medications with a diverse variety of chemical structures. Machine learning methods, such as PASSer, exhibit limited efficacy in accurately finding allosteric binding sites when relying solely on 3D structural information. Scientific Contribution Prior to conducting feature selection for allosteric binding site identification, integration of supporting amino-acid–based information to 3D structural knowledge is advantageous. This approach can enhance performance by ensuring accuracy and robustness. Therefore, we have developed an accurate and robust model called Multimodel Ensemble Feature Selection for Allosteric Site Identification (MEF-AlloSite) after collecting 9460 relevant and diverse features from the literature to characterise pockets. The model employs an accurate and robust multimodal feature selection technique for the small training set size of only 90 proteins to improve predictive performance. This state-of-the-art technique increased the performance in allosteric binding site identification by selecting promising features from 9460 features. Also, the relationship between selected features and allosteric binding sites enlightened the understanding of complex allostery for proteins by analysing selected features. MEF-AlloSite and state-of-the-art allosteric site identification methods such as PASSer2.0 and PASSerRank have been tested on three test cases 51 times with a different split of the training set. The Student’s t test and Cohen’s D value have been used to evaluate the average precision and ROC AUC score distribution. On three test cases, most of the p-values ( $$< 0.05$$ ) and the majority of Cohen’s D values ( $$> 0.5$$ ) showed that MEF-AlloSite’s 1–6% higher mean of average precision and ROC AUC than state-of-the-art allosteric site identification methods are statistically significant.
中文翻译:
MEF-AlloSite:用于变构位点识别模型的准确而强大的多模型集成特征选择
控制蛋白质作用的关键机制是变构。与正构配体相比,变构调节剂有可能提供许多好处,例如增加其作用的选择性和饱和性。新变构位点的鉴定为创新药物的创造提供了前景,并增强了我们对基本生物机制的理解。通过各种技术(例如机器学习应用程序),越来越多地在不同的蛋白质家族中发现变构位点,这为创造具有多种化学结构的全新药物提供了可能性。当仅依赖 3D 结构信息时,机器学习方法(如 PASSer)在准确查找变构结合位点方面的功效有限。科学贡献 在进行变构结合位点鉴定的特征选择之前,将基于氨基酸的支持信息整合到 3D 结构知识中是有利的。这种方法可以通过确保准确性和稳健性来提高性能。因此,在从文献中收集了 9460 个相关和多样化的特征来表征口袋后,我们开发了一个准确而强大的模型,称为变构位点识别的多模型集成特征选择 (MEF-AlloSite)。该模型针对仅 90 个蛋白质的小训练集大小采用了准确而稳健的多模态特征选择技术,以提高预测性能。这种最先进的技术通过从 9460 个特征中选择有希望的特征来提高变构结合位点鉴定的性能。 此外,通过分析选定的特征,所选特征与变构结合位点之间的关系启发了对蛋白质复杂变构的理解。MEF-AlloSite 和最先进的变构位点识别方法(如 PASSer2.0 和 PASSerRank)已在三个测试用例上进行了 51 次测试,训练集的不同划分。学生 t 检验和 Cohen 的 D 值用于评估平均精度和 ROC AUC 分数分布。在三个测试案例中,大多数 p 值 ( $$< 0.05$$ ) 和大多数 Cohen 的 D 值 ( $$> 0.5$$ ) 表明,MEF-AlloSite 的平均精度和 ROC AUC 平均值比最先进的变构位点识别方法高 1-6%,具有统计学意义。
更新日期:2024-10-24
中文翻译:
MEF-AlloSite:用于变构位点识别模型的准确而强大的多模型集成特征选择
控制蛋白质作用的关键机制是变构。与正构配体相比,变构调节剂有可能提供许多好处,例如增加其作用的选择性和饱和性。新变构位点的鉴定为创新药物的创造提供了前景,并增强了我们对基本生物机制的理解。通过各种技术(例如机器学习应用程序),越来越多地在不同的蛋白质家族中发现变构位点,这为创造具有多种化学结构的全新药物提供了可能性。当仅依赖 3D 结构信息时,机器学习方法(如 PASSer)在准确查找变构结合位点方面的功效有限。科学贡献 在进行变构结合位点鉴定的特征选择之前,将基于氨基酸的支持信息整合到 3D 结构知识中是有利的。这种方法可以通过确保准确性和稳健性来提高性能。因此,在从文献中收集了 9460 个相关和多样化的特征来表征口袋后,我们开发了一个准确而强大的模型,称为变构位点识别的多模型集成特征选择 (MEF-AlloSite)。该模型针对仅 90 个蛋白质的小训练集大小采用了准确而稳健的多模态特征选择技术,以提高预测性能。这种最先进的技术通过从 9460 个特征中选择有希望的特征来提高变构结合位点鉴定的性能。 此外,通过分析选定的特征,所选特征与变构结合位点之间的关系启发了对蛋白质复杂变构的理解。MEF-AlloSite 和最先进的变构位点识别方法(如 PASSer2.0 和 PASSerRank)已在三个测试用例上进行了 51 次测试,训练集的不同划分。学生 t 检验和 Cohen 的 D 值用于评估平均精度和 ROC AUC 分数分布。在三个测试案例中,大多数 p 值 ( $$< 0.05$$ ) 和大多数 Cohen 的 D 值 ( $$> 0.5$$ ) 表明,MEF-AlloSite 的平均精度和 ROC AUC 平均值比最先进的变构位点识别方法高 1-6%,具有统计学意义。