当前位置:
X-MOL 学术
›
J. Cheminfom.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Llamol: a dynamic multi-conditional generative transformer for de novo molecular design
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-06-21 , DOI: 10.1186/s13321-024-00863-8 Niklas Dobberstein 1 , Astrid Maass 1 , Jan Hamaekers 1
Journal of Cheminformatics ( IF 7.1 ) Pub Date : 2024-06-21 , DOI: 10.1186/s13321-024-00863-8 Niklas Dobberstein 1 , Astrid Maass 1 , Jan Hamaekers 1
Affiliation
Generative models have demonstrated substantial promise in Natural Language Processing (NLP) and have found application in designing molecules, as seen in General Pretrained Transformer (GPT) models. In our efforts to develop such a tool for exploring the organic chemical space in search of potentially electro-active compounds, we present Llamol, a single novel generative transformer model based on the Llama 2 architecture, which was trained on a 12.5M superset of organic compounds drawn from diverse public sources. To allow for a maximum flexibility in usage and robustness in view of potentially incomplete data, we introduce Stochastic Context Learning (SCL) as a new training procedure. We demonstrate that the resulting model adeptly handles single- and multi-conditional organic molecule generation with up to four conditions, yet more are possible. The model generates valid molecular structures in SMILES notation while flexibly incorporating three numerical and/or one token sequence into the generative process, just as requested. The generated compounds are very satisfactory in all scenarios tested. In detail, we showcase the model’s capability to utilize token sequences for conditioning, either individually or in combination with numerical properties, making Llamol a potent tool for de novo molecule design, easily expandable with new properties. We developed a novel generative transformer model, Llamol, based on the Llama 2 architecture that was trained on a diverse set of 12.5 M organic compounds. It introduces Stochastic Context Learning (SCL) as a new training procedure, allowing for flexible and robust generation of valid organic molecules with up to multiple conditions that can be combined in various ways, making it a potent tool for de novo molecular design.
中文翻译:
Llamol:用于从头分子设计的动态多条件生成转换器
生成模型在自然语言处理 (NLP) 领域展现出了巨大的前景,并在分子设计中得到了应用,如通用预训练变压器 (GPT) 模型中所示。在我们努力开发这样一种工具来探索有机化学空间以寻找潜在的电活性化合物的过程中,我们提出了 Llamol,这是一种基于 Llama 2 架构的单一新型生成变压器模型,该模型在 12.5M 有机化学超集上进行了训练来自不同公共来源的化合物。为了在使用和鲁棒性方面实现最大的灵活性(考虑到可能不完整的数据),我们引入随机上下文学习(SCL)作为一种新的训练过程。我们证明所得到的模型能够熟练地处理单条件和多条件有机分子的生成,最多有四个条件,但更多条件是可能的。该模型以 SMILES 表示法生成有效的分子结构,同时按照要求灵活地将三个数字和/或一个标记序列合并到生成过程中。生成的化合物在所有测试场景中都非常令人满意。详细而言,我们展示了该模型利用标记序列进行调节的能力,无论是单独使用还是与数值属性结合使用,使 Llamol 成为从头分子设计的有效工具,并且可以轻松地通过新属性进行扩展。我们开发了一种新颖的生成变压器模型 Llamol,它基于 Llama 2 架构,该架构经过了 12.5 M 多种有机化合物的训练。它引入了随机上下文学习(SCL)作为一种新的训练程序,允许灵活而稳健地生成有效的有机分子,最多可通过多种方式组合多种条件,使其成为从头分子设计的有力工具。
更新日期:2024-06-22
中文翻译:
Llamol:用于从头分子设计的动态多条件生成转换器
生成模型在自然语言处理 (NLP) 领域展现出了巨大的前景,并在分子设计中得到了应用,如通用预训练变压器 (GPT) 模型中所示。在我们努力开发这样一种工具来探索有机化学空间以寻找潜在的电活性化合物的过程中,我们提出了 Llamol,这是一种基于 Llama 2 架构的单一新型生成变压器模型,该模型在 12.5M 有机化学超集上进行了训练来自不同公共来源的化合物。为了在使用和鲁棒性方面实现最大的灵活性(考虑到可能不完整的数据),我们引入随机上下文学习(SCL)作为一种新的训练过程。我们证明所得到的模型能够熟练地处理单条件和多条件有机分子的生成,最多有四个条件,但更多条件是可能的。该模型以 SMILES 表示法生成有效的分子结构,同时按照要求灵活地将三个数字和/或一个标记序列合并到生成过程中。生成的化合物在所有测试场景中都非常令人满意。详细而言,我们展示了该模型利用标记序列进行调节的能力,无论是单独使用还是与数值属性结合使用,使 Llamol 成为从头分子设计的有效工具,并且可以轻松地通过新属性进行扩展。我们开发了一种新颖的生成变压器模型 Llamol,它基于 Llama 2 架构,该架构经过了 12.5 M 多种有机化合物的训练。它引入了随机上下文学习(SCL)作为一种新的训练程序,允许灵活而稳健地生成有效的有机分子,最多可通过多种方式组合多种条件,使其成为从头分子设计的有力工具。