当前位置:
X-MOL 学术
›
J. Chem. Inf. Model.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MolPipeline: A Python Package for Processing Molecules with RDKit in Scikit-learn
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-09-17 , DOI: 10.1021/acs.jcim.4c00863 Jochen Sieg 1 , Christian W Feldmann 1 , Jennifer Hemmerich 1 , Conrad Stork 1 , Frederik Sandfort 1 , Philipp Eiden 1 , Miriam Mathea 1
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2024-09-17 , DOI: 10.1021/acs.jcim.4c00863 Jochen Sieg 1 , Christian W Feldmann 1 , Jennifer Hemmerich 1 , Conrad Stork 1 , Frederik Sandfort 1 , Philipp Eiden 1 , Miriam Mathea 1
Affiliation
The open-source package scikit-learn provides various machine learning algorithms and data processing tools, including the Pipeline class, which allows users to prepend custom data transformation steps to the machine learning model. We introduce the MolPipeline package, which extends this concept to cheminformatics by wrapping standard RDKit functionality, such as reading and writing SMILES strings or calculating molecular descriptors from a molecule object. We aimed to build an easy-to-use Python package to create completely automated end-to-end pipelines that scale to large data sets. Particular emphasis was put on handling erroneous instances, where resolution would require manual intervention in default pipelines. MolPipeline provides the building blocks to enable seamless integration of common cheminformatics tasks within scikit-learn’s pipeline framework, such as scaffold splits and molecular standardization, making pipeline building easily adaptable to diverse project requirements.
中文翻译:
MolPipeline:用于在 Scikit-learn 中使用 RDKit 处理分子的 Python 包
开源软件包 scikit-learn 提供了各种机器学习算法和数据处理工具,包括 Pipeline 类,它允许用户在机器学习模型前面添加自定义数据转换步骤。我们介绍了 MolPipeline 包,它通过包装标准 RDKit 功能(例如读取和写入 SMILES 字符串或从分子对象计算分子描述符)将这一概念扩展到化学信息学。我们的目标是构建一个易于使用的 Python 包,以创建可扩展到大型数据集的完全自动化的端到端管道。特别强调处理错误实例,其中解析需要在默认管道中手动干预。MolPipeline 提供了构建块,可以在 scikit-learn 的管道框架中无缝集成常见的化学信息学任务,例如支架拆分和分子标准化,使管道构建能够轻松适应不同的项目要求。
更新日期:2024-09-19
中文翻译:
MolPipeline:用于在 Scikit-learn 中使用 RDKit 处理分子的 Python 包
开源软件包 scikit-learn 提供了各种机器学习算法和数据处理工具,包括 Pipeline 类,它允许用户在机器学习模型前面添加自定义数据转换步骤。我们介绍了 MolPipeline 包,它通过包装标准 RDKit 功能(例如读取和写入 SMILES 字符串或从分子对象计算分子描述符)将这一概念扩展到化学信息学。我们的目标是构建一个易于使用的 Python 包,以创建可扩展到大型数据集的完全自动化的端到端管道。特别强调处理错误实例,其中解析需要在默认管道中手动干预。MolPipeline 提供了构建块,可以在 scikit-learn 的管道框架中无缝集成常见的化学信息学任务,例如支架拆分和分子标准化,使管道构建能够轻松适应不同的项目要求。