AI抢饭碗？普林斯顿联手美国默克发Science，基于机器学习准确预测偶联反应收率- X-MOL资讯

当前位置： X-MOL首页 › 行业资讯 › AI抢饭碗？普林斯顿联手美国默克发Science，基于机器学习准确预测偶联反应收率

AI抢饭碗？普林斯顿联手美国默克发Science，基于机器学习准确预测偶联反应收率

作者：X-MOL 2018-03-08

在药物研发和天然产物的合成中，化学家不仅要设计出合理的合成路线还要尽可能的提高每一步反应的产率，显然利用传统的有机合成方式进行这一工作，不仅是对成本（时间、金钱）和实验工作者体力的挑战，也是对路线设计者脑力（记忆力和分析能力）的挑战。然而近年来智能化和自动化技术的迅猛发展正让这类化学合成的传统实验室工作模式发生着翻天覆地的变化。例如，韩国蔚山国立科学技术研究所的Bartosz Grzybowski教授开发了一系列建立在“大数据”和“机器学习”基础上的化学合成软件如Chematica、Syntaurus等（点击阅读相关），不仅可以预测反应产物还能设计出天然产物的合成路径。美国伊利诺伊大学香槟分校的Martin D. Burke教授开创了MIDA硼酸酯迭代偶联技术用以实现小分子的自动合成（点击阅读相关）。然而，不管是分子合成路线的智能设计还是分子的自动化合成，它们的实现都离不开每一步合成收率的优化。近几年，美国默克（在美国和加拿大之外的地区称为“默沙东”）和辉瑞制药公司的研究人员分别开发了建立在高通量实验技术基础上的自动化反应平台，可在短时间内筛选数千种纳摩尔级别的Buchwald-Hartwig偶联（点击阅读相关）和Suzuki-Miyaura偶联反应（点击阅读相关）。即便如此，现有的反应自动优化模式似乎还无法满足合成化学的需求，能否“不战而屈人之兵”，即，不做实验仅通过计算来预测反应收率？

近日，来自普林斯顿大学的Abigail Doyle（点击阅读相关）教授与美国默克的Spencer Dreher博士等研究人员合作使用了一种强大的机器学习算法——随机森林算法（random forest algorithm），在接受数以千计的Buchwald-Hartwig偶联反应数据的训练后，这种算法可以准确预测其他具有多维变量的Buchwald-Hartwig偶联反应收率。就算训练数据大幅减少到数百个反应，或者预测样本外反应，这种算法的表现依然十分亮眼。相关报道发表在近期的Science 杂志上。

文1-1.jpg

Spencer Dreher博士（左）和Abigail Doyle教授（右）。图片来源：Merck & Co. / Princeton University

反应模型的选择

异噁唑及其衍生物是一类含N-O键的五元杂环化合物，该结构广泛存在于生物活性分子及天然产物中，并且具有很好的药理学特性。Buchwald-Hartwig偶联反应是药物合成中应用最为广泛的反应之一，然而使用以异噁唑结构为官能团的化合物进行Buchwald-Hartwig偶联反应构建复杂药物分子依然面临着巨大的挑战，主要原因有两点：（1）异噁唑自身的反应活性较高且易与金属催化剂配位；（2）含有异噁唑结构的底物的合成并不容易。因此如何快速、高效地实现该类底物参与的偶联反应具有重要意义。2012年，德国明斯特大学Frank Glorius教授发展了一种基于添加物的反应筛选评价方法，可快速可靠地评估反应底物适用范围。与传统的底物扩展思路不同，该方法将官能团从底物中剥离，并以添加剂的形式在反应中等当量添加，通过GC测定产物产率、原料和添加剂剩余量来评估反应官能团的耐受性及化学片段在反应条件下的稳定性，省去了耗时耗力的官能团化底物的合成。借鉴Glorius教授的方法，作者以异噁唑化合物为添加剂时的甲基苯胺与卤代芳烃的Buchwald-Hartwig偶联反应为模板开始了他们的人工智能（AI）之旅。

反应数据的获得

正所谓“种瓜得瓜种豆得豆”，很多机器学习算法的效果关键在于训练数据的质量。在化学领域，机器学习的数据主要来源于那些已经发表过的文献或者专利中的成功反应，这些数据存在两个主要问题：一方面这些数据来自不同的时间和不同的研究者，一致性很难保证；另一方面失败的反应由于经常不被公开而很难获得，这让数据的完整性大打折扣。正如Abigail Doyle教授所说，这项研究之所以能取得成功地一个关键因素在于他们能够依靠上文提到的美国默克开发的高通量反应筛选平台（点击阅读相关，值得一提的是，本文通讯作者Spencer Dreher博士也是该平台的主要研发者之一）。该平台让他们能在极短的时间内完成4608个Buchwald-Hartwig偶联反应，其中包括15种卤代芳烃和卤代杂环芳烃底物，23种异噁唑添加剂，4种钯配体和3种有机碱，反应溶剂为DMSO，反应温度为60 ℃，反应时间为16小时。这为机器学习提供了充足可靠的数据，包括非常重要的大量失败反应的数据。

文1-2.jpg

图1. 以含四个变量的Buchwald-Hartwig偶联为模板通过自动反应平台筛选收集反应数据。图片来源：Science

样本集的生成

描述符是机器学习的基础，精确定义且合理选择与研究对象相关的描述符在机器学习中十分重要。作者将反应中四种变量的化合物结构分类并写入Spartan软件中，随后通过计算挑选出与体系相关的120种描述符，包括分子描述符：轨道能量（E_HOMO和E_LUMO）、偶极矩、电负性、硬度、体积、质量、椭圆度及表面积等；原子描述符：原子静电荷和核磁位移等；振动描述符：振动频率和强度等。其中用于描述异噁唑的参数有19个，描述卤化物的参数有27个，描述有机碱的参数有10个，而描述钯配体的参数则多达64个。如图3所示，以这些化合物的描述符为输入值，以反应产率为输出值，它们经转换为机器可分析的格式后构建起机器学习的样本集，其中矩阵的每一行为一个反应样本，每一列为样本的某一个特征。而机器学习的目的则是要通过样本集的训练建立起输入值与输出值间的映射关系，以便准确预测一个未知的新样本。

文1-3.jpg

图2. 利用Spartan软件计算化合物的分子、原子和振动描述符。图片来源：Science

文1-4.jpg

图3. 机器学习的样本集。图片来源：Science

机器学习及预测

作者从原始数据集中抽取70%的样本作为训练集用于训练预测算法，剩下的30%样本作为测试集用于检验预测模型的性能，其中在训练集中又采用K-交叉验证方式让机器学习样本，他们对多种线性回归模型（Linear regression models）、k-近邻算法（kNN）、支持向量机（SVM）、贝叶斯广义线性模型（Bayers GLM）、神经网络模型（Neutral network）和随机森林算法（Random forest algorithm）进行了考察。结果显示，接受训练后的各种算法中表现最优异的是随机森林算法，在对测试集的检验中，其预测产率值与实际产率值间的线性相关度最高，标准误差值（RMSE）为7.8%，同时 R²值为0.96。通常机器学习的数据越少，其预测能力也逐渐下降，在对反应产率的预测上随机森林算法上也不例外。但是相比于其他模型需要用70%的数据进行训练才能达到一定的预测准确度而言，随机森林算法只需对5%的数据进行学习即可超越他们，这意味着要练就相同的“功力”，随机森林算法仅用230个反应即可，而其他算法却用了3225个反应。

文1-5.jpg

图4. 经训练后的各种模型预测反应产率和实际反应产率的相关性分析。图片来源：Science

为了进一步展示这种随机森林算法的强大能力，他们又对另外8种异噁唑添加剂（16-23）参与的反应进行了预测，值的一提的是，这些新的添加剂此前并未在样本中出现并且其取代基与之前的15种添加剂（1-15）也不类似。结果表明，对于这些样本外的反应，随机森林算法同样能给出精准的预测，每种添加剂参与反应的产率预测值与真实值间的相关性分析如图5B所示，其平均RMSE值为11.3%，平均R²值为0.91。

文1-6.jpg

图5. 随机森林算法对样本外反应产率的预测值与实际值间的相关性分析。图片来源：Science

接着，作者以均方误差（MSE）为标准收窄了化学描述符的范围，并找出了随机森林算法中最重要的10种描述符，其中在前5名中关于添加剂的描述符就占了4个，它们分别是异噁唑*C3的核磁位移、E_LUMO、*O1和*C5的静电荷，虽然仅仅用这些化学描述符还不足以建立起一个预测模型，但是它们在一定程度上表明添加剂对反应的真实收率有着重要的影响。更关键的是，这些信息可以指导他们如何选择合适的反应进行机理研究。例如使用*C3核磁位移最大的异噁唑1b为底物与化学计量的四三苯基膦钯进行反应，他们观察到了Pd与N-O键发生氧化加成的产物2b的生成，当他们向这一反应中加入溴代芳香烃1c时，他们可以同时观察到2c和2b的生成。当使用*C3核磁位移最小的1a参与以上两个反应时仅生成2c产物，并未生成Pd与N-O键发生氧化加成的产物2a。这表明Buchwald-Hartwig偶联反应的产率与基于异噁唑的竞争反应有关。

文1-7.jpg

图6. 利用预测模型进行反应机理研究。图片来源：Science

Abigail Doyle教授认为这项研究中AI能有如此神勇的表现主要归功于超大的高质量学习数据库的建立以及合理的化学描述符的选择，当然这也离不开高通量反应和化学计算软件Spartan的帮助。^[1]而基于决策树的随机森林算法需要做的就是回答诸如“卤代芳香烃的E_LUMO升高是否有助于提升反应产率”之类的问题。利用这一方法他们不仅可以预测样本内和样本外的Buchwald-Hartwig偶联反应的表现情况，还可以预测哪些异噁唑添加剂会抑制反应而哪些不会。当然Abigail Doyle教授也承认目前的方法仍然还有很多需要改进的地方，例如仅使用溴代芳香烃的反应数据对机器进行训练后，要预测氯代或碘代芳香烃参与反应的表现情况还有些困难。同时，由于反应原料和添加剂的剩余量无法准确测定，他们还无法通过该方法来间接评估含有官能团异噁唑底物的反应表现，这在一定程度上与他们最初的目标相背离。尽管如此，加州大学伯克利分校的有机合成化学家Richmond Sarpong教授对这一工作给出了极高的评价，他认为“Doyle教授使用的机器学习方法对于均相催化和传统化学合成领域而言是一项不可思议而又姗姗来迟”的研究。^[2] 下一步，Abigail Doyle教授希望机器学习能够预测那些具有更复杂三维结构的底物参与的反应。

看到这里，估计很多人把心放到了肚子里，看来AI暂时还抢不了化学家的饭碗。不过看着现在发展迅猛的AI浪潮，未来怎样，谁又能说得准呢？

原文（扫描或长按二维码，识别后直达原文页面，或点此查看原文）：

文1-91.jpg