当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Graph neural processes for molecules: an evaluation on docking scores and strategies to improve generalization
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-10-23 , DOI: 10.1186/s13321-024-00904-2 Miguel García-Ortegón, Srijit Seal, Carl Rasmussen, Andreas Bender, Sergio Bacallado
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-10-23 , DOI: 10.1186/s13321-024-00904-2 Miguel García-Ortegón, Srijit Seal, Carl Rasmussen, Andreas Bender, Sergio Bacallado
Neural processes (NPs) are models for meta-learning which output uncertainty estimates. So far, most studies of NPs have focused on low-dimensional datasets of highly-correlated tasks. While these homogeneous datasets are useful for benchmarking, they may not be representative of realistic transfer learning. In particular, applications in scientific research may prove especially challenging due to the potential novelty of meta-testing tasks. Molecular property prediction is one such research area that is characterized by sparse datasets of many functions on a shared molecular space. In this paper, we study the application of graph NPs to molecular property prediction with DOCKSTRING, a diverse dataset of docking scores. Graph NPs show competitive performance in few-shot learning tasks relative to supervised learning baselines common in chemoinformatics, as well as alternative techniques for transfer learning and meta-learning. In order to increase meta-generalization to divergent test functions, we propose fine-tuning strategies that adapt the parameters of NPs. We find that adaptation can substantially increase NPs' regression performance while maintaining good calibration of uncertainty estimates. Finally, we present a Bayesian optimization experiment which showcases the potential advantages of NPs over Gaussian processes in iterative screening. Overall, our results suggest that NPs on molecular graphs hold great potential for molecular property prediction in the low-data setting. Neural processes are a family of meta-learning algorithms which deal with data scarcity by transferring information across tasks and making probabilistic predictions. We evaluate their performance on regression and optimization molecular tasks using docking scores, finding them to outperform classical single-task and transfer-learning models. We examine the issue of generalization to divergent test tasks, which is a general concern of meta-learning algorithms in science, and propose strategies to alleviate it.
中文翻译:
分子的图神经过程:对接分数和改进泛化策略的评估
神经过程 (NPs) 是输出不确定性估计的元学习模型。到目前为止,大多数 NP 的研究都集中在高度相关任务的低维数据集上。虽然这些同构数据集可用于基准测试,但它们可能无法代表真实的迁移学习。特别是,由于元测试任务的潜在新颖性,科学研究中的应用可能特别具有挑战性。分子特性预测就是这样一个研究领域,其特点是共享分子空间上许多函数的稀疏数据集。在本文中,我们研究了图 NPs 在 DOCKSTRING 分子性质预测中的应用,DOCKSTRING 是一个多样化的对接分数数据集。图形 NP 相对于化学信息学中常见的监督学习基线以及迁移学习和元学习的替代技术,在小样本学习任务中显示出有竞争力的性能。为了增加对发散测试函数的元泛化,我们提出了适应 NP 参数的微调策略。我们发现,适应可以大大提高 NPs 的回归性能,同时保持对不确定性估计的良好校准。最后,我们提出了一个贝叶斯优化实验,该实验展示了 NPs 在迭代筛选中相对于高斯过程的潜在优势。总体而言,我们的结果表明,分子图谱上的 NPs 在低数据设置下具有很大的分子性质预测潜力。神经过程是一系列元学习算法,它们通过在任务之间传输信息并进行概率预测来处理数据稀缺。 我们使用对接分数评估了它们在回归和优化分子任务上的表现,发现它们的性能优于经典的单任务和迁移学习模型。我们研究了对发散测试任务的泛化问题,这是科学中元学习算法的普遍关注点,并提出了缓解它的策略。
更新日期:2024-10-24
中文翻译:
分子的图神经过程:对接分数和改进泛化策略的评估
神经过程 (NPs) 是输出不确定性估计的元学习模型。到目前为止,大多数 NP 的研究都集中在高度相关任务的低维数据集上。虽然这些同构数据集可用于基准测试,但它们可能无法代表真实的迁移学习。特别是,由于元测试任务的潜在新颖性,科学研究中的应用可能特别具有挑战性。分子特性预测就是这样一个研究领域,其特点是共享分子空间上许多函数的稀疏数据集。在本文中,我们研究了图 NPs 在 DOCKSTRING 分子性质预测中的应用,DOCKSTRING 是一个多样化的对接分数数据集。图形 NP 相对于化学信息学中常见的监督学习基线以及迁移学习和元学习的替代技术,在小样本学习任务中显示出有竞争力的性能。为了增加对发散测试函数的元泛化,我们提出了适应 NP 参数的微调策略。我们发现,适应可以大大提高 NPs 的回归性能,同时保持对不确定性估计的良好校准。最后,我们提出了一个贝叶斯优化实验,该实验展示了 NPs 在迭代筛选中相对于高斯过程的潜在优势。总体而言,我们的结果表明,分子图谱上的 NPs 在低数据设置下具有很大的分子性质预测潜力。神经过程是一系列元学习算法,它们通过在任务之间传输信息并进行概率预测来处理数据稀缺。 我们使用对接分数评估了它们在回归和优化分子任务上的表现,发现它们的性能优于经典的单任务和迁移学习模型。我们研究了对发散测试任务的泛化问题,这是科学中元学习算法的普遍关注点,并提出了缓解它的策略。