当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
AutoTemplate: enhancing chemical reaction datasets for machine learning applications in organic chemistry
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-06-27 , DOI: 10.1186/s13321-024-00869-2 Lung-Yi Chen , Yi-Pei Li
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-06-27 , DOI: 10.1186/s13321-024-00869-2 Lung-Yi Chen , Yi-Pei Li
This paper presents AutoTemplate, an innovative data preprocessing protocol, addressing the crucial need for high-quality chemical reaction datasets in the realm of machine learning applications in organic chemistry. Recent advances in artificial intelligence have expanded the application of machine learning in chemistry, particularly in yield prediction, retrosynthesis, and reaction condition prediction. However, the effectiveness of these models hinges on the integrity of chemical reaction datasets, which are often plagued by inconsistencies like missing reactants, incorrect atom mappings, and outright erroneous reactions. AutoTemplate introduces a two-stage approach to refine these datasets. The first stage involves extracting meaningful reaction transformation rules and formulating generic reaction templates using a simplified SMARTS representation. This simplification broadens the applicability of templates across various chemical reactions. The second stage is template-guided reaction curation, where these templates are systematically applied to validate and correct the reaction data. This process effectively amends missing reactant information, rectifies atom-mapping errors, and eliminates incorrect data entries. A standout feature of AutoTemplate is its capability to concurrently identify and correct false chemical reactions. It operates on the premise that most reactions in datasets are accurate, using these as templates to guide the correction of flawed entries. The protocol demonstrates its efficacy across a range of chemical reactions, significantly enhancing dataset quality. This advancement provides a more robust foundation for developing reliable machine learning models in chemistry, thereby improving the accuracy of forward and retrosynthetic predictions. AutoTemplate marks a significant progression in the preprocessing of chemical reaction datasets, bridging a vital gap and facilitating more precise and efficient machine learning applications in organic synthesis. The proposed automated preprocessing tool for chemical reaction data aims to identify errors within chemical databases. Specifically, if the errors involve atom mapping or the absence of reactant types, corrections can be systematically applied using reaction templates, ultimately elevating the overall quality of the database.
中文翻译:
AutoTemplate:增强有机化学中机器学习应用的化学反应数据集
本文介绍了 AutoTemplate,一种创新的数据预处理协议,解决了有机化学机器学习应用领域对高质量化学反应数据集的迫切需求。人工智能的最新进展扩大了机器学习在化学中的应用,特别是在产量预测、逆合成和反应条件预测方面。然而,这些模型的有效性取决于化学反应数据集的完整性,而化学反应数据集经常受到诸如缺少反应物、不正确的原子映射和完全错误的反应等不一致的困扰。 AutoTemplate 引入了一种两阶段方法来细化这些数据集。第一阶段涉及提取有意义的反应转换规则并使用简化的 SMARTS 表示形式制定通用反应模板。这种简化拓宽了模板在各种化学反应中的适用性。第二阶段是模板引导的反应管理,系统地应用这些模板来验证和纠正反应数据。该过程有效地修正了缺失的反应物信息,纠正了原子映射错误,并消除了不正确的数据条目。 AutoTemplate 的一个突出功能是它能够同时识别和纠正错误的化学反应。它的运行前提是数据集中的大多数反应都是准确的,使用这些作为模板来指导纠正有缺陷的条目。该协议展示了其在一系列化学反应中的功效,显着提高了数据集质量。这一进步为开发可靠的化学机器学习模型提供了更坚实的基础,从而提高了正向和逆向合成预测的准确性。 AutoTemplate 标志着化学反应数据集预处理方面的重大进展,弥补了重要差距,促进了有机合成中更精确、更高效的机器学习应用。所提出的化学反应数据自动预处理工具旨在识别化学数据库中的错误。具体来说,如果错误涉及原子映射或反应物类型的缺失,则可以使用反应模板系统地应用校正,最终提高数据库的整体质量。
更新日期:2024-06-28
中文翻译:
AutoTemplate:增强有机化学中机器学习应用的化学反应数据集
本文介绍了 AutoTemplate,一种创新的数据预处理协议,解决了有机化学机器学习应用领域对高质量化学反应数据集的迫切需求。人工智能的最新进展扩大了机器学习在化学中的应用,特别是在产量预测、逆合成和反应条件预测方面。然而,这些模型的有效性取决于化学反应数据集的完整性,而化学反应数据集经常受到诸如缺少反应物、不正确的原子映射和完全错误的反应等不一致的困扰。 AutoTemplate 引入了一种两阶段方法来细化这些数据集。第一阶段涉及提取有意义的反应转换规则并使用简化的 SMARTS 表示形式制定通用反应模板。这种简化拓宽了模板在各种化学反应中的适用性。第二阶段是模板引导的反应管理,系统地应用这些模板来验证和纠正反应数据。该过程有效地修正了缺失的反应物信息,纠正了原子映射错误,并消除了不正确的数据条目。 AutoTemplate 的一个突出功能是它能够同时识别和纠正错误的化学反应。它的运行前提是数据集中的大多数反应都是准确的,使用这些作为模板来指导纠正有缺陷的条目。该协议展示了其在一系列化学反应中的功效,显着提高了数据集质量。这一进步为开发可靠的化学机器学习模型提供了更坚实的基础,从而提高了正向和逆向合成预测的准确性。 AutoTemplate 标志着化学反应数据集预处理方面的重大进展,弥补了重要差距,促进了有机合成中更精确、更高效的机器学习应用。所提出的化学反应数据自动预处理工具旨在识别化学数据库中的错误。具体来说,如果错误涉及原子映射或反应物类型的缺失,则可以使用反应模板系统地应用校正,最终提高数据库的整体质量。