当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Sort & Slice: a simple and superior alternative to hash-based folding for extended-connectivity fingerprints
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-12-03 , DOI: 10.1186/s13321-024-00932-y
Markus Dablander, Thierry Hanser, Renaud Lambiotte, Garrett M. Morris
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-12-03 , DOI: 10.1186/s13321-024-00932-y
Markus Dablander, Thierry Hanser, Renaud Lambiotte, Garrett M. Morris
Extended-connectivity fingerprints (ECFPs) are a ubiquitous tool in current cheminformatics and molecular machine learning, and one of the most prevalent molecular feature extraction techniques used for chemical prediction. Atom features learned by graph neural networks can be aggregated to compound-level representations using a large spectrum of graph pooling methods. In contrast, sets of detected ECFP substructures are by default transformed into bit vectors using only a simple hash-based folding procedure. We introduce a general mathematical framework for the vectorisation of structural fingerprints via a formal operation called substructure pooling that encompasses hash-based folding, algorithmic substructure selection, and a wide variety of other potential techniques. We go on to describe Sort & Slice, an easy-to-implement and bit-collision-free alternative to hash-based folding for the pooling of ECFP substructures. Sort & Slice first sorts ECFP substructures according to their relative prevalence in a given set of training compounds and then slices away all but the L most frequent substructures which are subsequently used to generate a binary fingerprint of desired length, L. We computationally compare the performance of hash-based folding, Sort & Slice, and two advanced supervised substructure-selection schemes (filtering and mutual-information maximisation) for ECFP-based molecular property prediction. Our results indicate that, despite its technical simplicity, Sort & Slice robustly (and at times substantially) outperforms traditional hash-based folding as well as the other investigated substructure-pooling methods across distinct prediction tasks, data splitting techniques, machine-learning models and ECFP hyperparameters. We thus recommend that Sort & Slice canonically replace hash-based folding as the default substructure-pooling technique to vectorise ECFPs for supervised molecular machine learning. Scientific contribution A general mathematical framework for the vectorisation of structural fingerprints called substructure pooling; and the technical description and computational evaluation of Sort & Slice, a conceptually simple and bit-collision-free method for the pooling of ECFP substructures that robustly and markedly outperforms classical hash-based folding at molecular property prediction.
中文翻译:
排序和切片:一种简单而优越的替代哈希折叠方式,用于扩展连接指纹
扩展连接指纹 (ECFP) 是当前化学信息学和分子机器学习中无处不在的工具,也是用于化学预测的最普遍的分子特征提取技术之一。图神经网络学习的 Atom 特征可以使用大量图池化方法聚合为复合级表示。相比之下,默认情况下,检测到的 ECFP 子结构集仅使用简单的基于哈希的折叠过程转换为位向量。我们引入了一个通用的数学框架,用于通过称为子结构池的正式操作对结构指纹进行矢量化,其中包括基于哈希的折叠、算法子结构选择和各种其他潜在技术。我们继续描述排序和切片,这是一种易于实现且无位冲突的替代方案,用于ECFP子结构的池化,替代基于哈希的折叠。排序和切片首先根据它们在给定的训练化合物集中的相对流行度对ECFP子结构进行排序,然后切片掉除L个最常见的子结构之外的所有子结构,这些子结构随后用于生成所需长度的二进制指纹,L。我们计算比较了基于哈希的折叠、排序和切片以及两种先进的监督子结构选择方案(过滤和互惠信息最大化)的性能,以实现基于ECFP的分子性质预测。我们的结果表明,尽管技术简单,但排序和切片在不同的预测任务、数据分割技术、机器学习模型和ECFP超参数中强有力地(有时是大幅度地)优于传统的基于哈希的折叠以及其他研究过的子结构池化方法。 因此,我们建议Sort & Slice规范地取代基于哈希的折叠作为默认的子结构池化技术,以将ECFPs矢量化以进行监督分子机器学习。科学贡献 用于结构指纹矢量化的一般数学框架,称为子结构池;以及Sort & Slice的技术描述和计算评估,这是一种概念上简单且无位冲突的方法,用于ECFP子结构的池化,在分子性质预测中,其性能明显优于经典的基于哈希的折叠。
更新日期:2024-12-03
中文翻译:
排序和切片:一种简单而优越的替代哈希折叠方式,用于扩展连接指纹
扩展连接指纹 (ECFP) 是当前化学信息学和分子机器学习中无处不在的工具,也是用于化学预测的最普遍的分子特征提取技术之一。图神经网络学习的 Atom 特征可以使用大量图池化方法聚合为复合级表示。相比之下,默认情况下,检测到的 ECFP 子结构集仅使用简单的基于哈希的折叠过程转换为位向量。我们引入了一个通用的数学框架,用于通过称为子结构池的正式操作对结构指纹进行矢量化,其中包括基于哈希的折叠、算法子结构选择和各种其他潜在技术。我们继续描述排序和切片,这是一种易于实现且无位冲突的替代方案,用于ECFP子结构的池化,替代基于哈希的折叠。排序和切片首先根据它们在给定的训练化合物集中的相对流行度对ECFP子结构进行排序,然后切片掉除L个最常见的子结构之外的所有子结构,这些子结构随后用于生成所需长度的二进制指纹,L。我们计算比较了基于哈希的折叠、排序和切片以及两种先进的监督子结构选择方案(过滤和互惠信息最大化)的性能,以实现基于ECFP的分子性质预测。我们的结果表明,尽管技术简单,但排序和切片在不同的预测任务、数据分割技术、机器学习模型和ECFP超参数中强有力地(有时是大幅度地)优于传统的基于哈希的折叠以及其他研究过的子结构池化方法。 因此,我们建议Sort & Slice规范地取代基于哈希的折叠作为默认的子结构池化技术,以将ECFPs矢量化以进行监督分子机器学习。科学贡献 用于结构指纹矢量化的一般数学框架,称为子结构池;以及Sort & Slice的技术描述和计算评估,这是一种概念上简单且无位冲突的方法,用于ECFP子结构的池化,在分子性质预测中,其性能明显优于经典的基于哈希的折叠。