当前位置:
X-MOL 学术
›
ACS Synth. Biol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Simulated Design–Build–Test–Learn Cycles for Consistent Comparison of Machine Learning Methods in Metabolic Engineering
ACS Synthetic Biology ( IF 3.7 ) Pub Date : 2023-08-24 , DOI: 10.1021/acssynbio.3c00186 Paul van Lent 1 , Joep Schmitz 2 , Thomas Abeel 1, 3
ACS Synthetic Biology ( IF 3.7 ) Pub Date : 2023-08-24 , DOI: 10.1021/acssynbio.3c00186 Paul van Lent 1 , Joep Schmitz 2 , Thomas Abeel 1, 3
Affiliation
Combinatorial pathway optimization is an important tool in metabolic flux optimization. Simultaneous optimization of a large number of pathway genes often leads to combinatorial explosions. Strain optimization is therefore often performed using iterative design–build–test–learn (DBTL) cycles. The aim of these cycles is to develop a product strain iteratively, every time incorporating learning from the previous cycle. Machine learning methods provide a potentially powerful tool to learn from data and propose new designs for the next DBTL cycle. However, due to the lack of a framework for consistently testing the performance of machine learning methods over multiple DBTL cycles, evaluating the effectiveness of these methods remains a challenge. In this work, we propose a mechanistic kinetic model-based framework to test and optimize machine learning for iterative combinatorial pathway optimization. Using this framework, we show that gradient boosting and random forest models outperform the other tested methods in the low-data regime. We demonstrate that these methods are robust for training set biases and experimental noise. Finally, we introduce an algorithm for recommending new designs using machine learning model predictions. We show that when the number of strains to be built is limited, starting with a large initial DBTL cycle is favorable over building the same number of strains for every cycle.
中文翻译:
模拟设计-构建-测试-学习循环,用于代谢工程中机器学习方法的一致比较
组合途径优化是代谢通量优化的重要工具。大量途径基因的同时优化通常会导致组合爆炸。因此,应变优化通常使用迭代设计-构建-测试-学习 (DBTL) 循环来执行。这些周期的目的是迭代开发产品系列,每次都结合上一个周期的学习成果。机器学习方法提供了一种潜在的强大工具,可以从数据中学习并为下一个 DBTL 周期提出新的设计。然而,由于缺乏在多个 DBTL 周期内一致测试机器学习方法性能的框架,评估这些方法的有效性仍然是一个挑战。在这项工作中,我们提出了一种基于机械动力学模型的框架来测试和优化机器学习以实现迭代组合路径优化。使用这个框架,我们表明梯度增强和随机森林模型在低数据情况下优于其他测试方法。我们证明这些方法对于训练集偏差和实验噪声具有鲁棒性。最后,我们介绍了一种使用机器学习模型预测推荐新设计的算法。我们表明,当要构建的菌株数量有限时,从较大的初始 DBTL 循环开始比每个循环构建相同数量的菌株更有利。
更新日期:2023-08-24
中文翻译:
模拟设计-构建-测试-学习循环,用于代谢工程中机器学习方法的一致比较
组合途径优化是代谢通量优化的重要工具。大量途径基因的同时优化通常会导致组合爆炸。因此,应变优化通常使用迭代设计-构建-测试-学习 (DBTL) 循环来执行。这些周期的目的是迭代开发产品系列,每次都结合上一个周期的学习成果。机器学习方法提供了一种潜在的强大工具,可以从数据中学习并为下一个 DBTL 周期提出新的设计。然而,由于缺乏在多个 DBTL 周期内一致测试机器学习方法性能的框架,评估这些方法的有效性仍然是一个挑战。在这项工作中,我们提出了一种基于机械动力学模型的框架来测试和优化机器学习以实现迭代组合路径优化。使用这个框架,我们表明梯度增强和随机森林模型在低数据情况下优于其他测试方法。我们证明这些方法对于训练集偏差和实验噪声具有鲁棒性。最后,我们介绍了一种使用机器学习模型预测推荐新设计的算法。我们表明,当要构建的菌株数量有限时,从较大的初始 DBTL 循环开始比每个循环构建相同数量的菌株更有利。