当前位置 : X-MOL首页行业资讯 › Science:铃木反应筛条件,机器人“联手”AI事半功倍

Science:铃木反应筛条件,机器人“联手”AI事半功倍

副标题:杂芳基Suzuki-Miyaura偶联普适性反应条件的闭环优化


对于有机合成而言,深入了解各类化学物质的普适性反应条件,不仅可以加速创新和药物研发,而且能够使复杂的化学过程自动化,同时对天然产物、生物医药、材料研究等领域具有重要的意义。然而,在小分子有机物的合成过程中,化学家通常会开发特定的反应条件以最大化目标分子产率、最小化副产物或反应成本,尽管同样的反应条件在应用于更广泛的底物组合时往往很少能获得高产率。杂芳基结构单元广泛存在于药物、材料、催化剂、染料和天然产物等功能分子中,因此寻找(杂)芳基Suzuki-Miyaura交叉偶联反应(SMC)的普适性条件极为重要。不过该过程极具挑战性,这主要是由于潜在的杂芳基和芳基底物范围非常大,期望和不期望的反应性多样化,因此迫切需要开发一个通用且自动化的小分子合成平台。


前不久,美国伊利诺伊大学厄巴纳-香槟分校(UIUC)的Martin D. Burke教授团队尝试利用机器学习(machine learning,ML)通过挖掘关于(杂)芳基 SMC反应的大量化学文献来寻找普适性反应条件(J. Am. Chem. Soc., 2022144, 4819–4827),但以失败告终,这是因为文献中报道的条件选择缺乏与底物结构的因果联系,并且实验不成功的阴性结果无处可寻。近日,Martin D. Burke教授课题组和蔚山科学技术研究所&波兰科学院Bartosz A. Grzybowski教授团队合作,在Science 上报道了一个简单的闭环工作流,利用数据引导矩阵向下选择、不确定性最小化ML和机器人实验来发现普适性反应条件。基于这种工作流,他们在广阔的底物条件空间中成功确定了(杂)芳基SMC反应的普适性反应条件。具体而言,(1)数据引导的矩阵向下选择,以使巨大的搜索空间易于处理,同时保持对整体的有效性;(2)不确定性最小化ML,以有效推动预测优化;(3)机器人实验,以提高按需递归生成的数据集的通量、精确度和可重复性(图1)。与之前通过传统人工引导实验(J. Am. Chem. Soc., 2009131, 6961-6963, 以下称为JACS 2009)开发的基准普适条件相比,本文优化方案的平均产率翻了一番(21% vs 46%)。

图1. 本文报道的闭环工作流。图片来源:Science


为了实现普适性杂(芳基)SMC反应条件的实际探索,作者首先战略性地向下选择了可能的结构单元组合矩阵和可能的反应条件矩阵,以保持子集与其整体的相关性(图1)。具体来说,对常见精细化学品供应商的库存进行了数据挖掘,并汇总了约 5400 个(杂)芳基卤化物砌块的清单。为了定义该化学空间的代表性子集,作者向下选择了最能代表每个部分的54个“质心”分子,并将其与54种市售(杂)芳基N-甲基亚氨基二乙酸(MIDA)硼酸酯相结合,从而定义了由2688种代表性交叉偶联产物组成的下选底物范围。绘制该潜在的产物空间并将其与先前文献中报道的所有杂芳基产物进行比较,发现两组之间存在大量重叠,这表明它代表了整个杂芳基化学空间(图2A)。然而,即使在许多可能的反应条件下,测试这种最初选择的交叉偶联产物集合在技术上也是不可行的。为此,作者基于Tanimoto相似性的“贪心算法”从中识别出一组11个代表性底物对(图2B),并在一组初始条件下测试了11种合成砌块组合以“播种”ML优化(图2C),然后在ML-引导的优化阶段在更广泛的条件下进行迭代测试。如图2D所示,所有的反应均在机器人实验系统上自动进行,当每个反应重复进行两次时产率的偏差仅为±2%,而同一实验者重复反应时的偏差约为10-15%,这进一步凸显出自动化实验的关键优势。另外,作者还通过Spearman秩矩阵进行量化(图2F),发现两对配体(XPhos和dppf、SPhos和PCy3)高度相关且冗余,为此作者从配体库中删除PCy3和dppf,并且由于效果差(8个底物的产率<5%)删除Pd2(dba)3,从而产生了528个反应的空间(11种底物×2种温度×2种碱×3种溶剂×4种催化剂)。


图2. 初始训练集的自动化合成。图片来源:Science


在闭环循环中,模型的不确定性逐渐降低并在第五轮收敛到校准模拟期间获得的阈值(图3A),这表明模型已获得了关于整个空间的足够知识,此时优化终止。与随机抽样相比,该策略在大约一半的反应中收敛到最优值(图3B),并且要比经典BO策略的成功可能性更高。当用算法探索反应条件空间时,数据集的反应产率均匀分布在文献报道产率的可能值范围内(图3C)。在该数据集中,11种底物在top-1条件下进行反应时的平均产率为72%,而基准条件的平均产率是64%。为了了解模型如何达到最佳值,作者探索了模型对每轮平均收率的感知和每个一般条件的排名(图3D、3E),结果显示该模型在前两轮能够准确地将条件分为高、中、低平均产率,并在随后的几轮建立正确的排名。如图3F所示,在实验过程中该模型的精确度不断提高,到第五轮该模型探索了几乎所有的前7个条件,这对应于模型估计的总平均产率>50%的每个条件(图3H)。最后,作者分析了模型的反应产率以获得有关反应条件空间的更多信息(图3I),结果显示在第二次迭代中探索了良好的反应之后,模型将注意力逐渐转移到反应条件空间中可以被视为“反例”的部分(这也会提高预测精确度)。


图3. 闭环实验和分析。图片来源:Science


在训练集里发现更高产的普适性条件后,作者尝试确定学习成果是否会转移到优化范围之外的底物。具体来说,通过Butina算法选择超过20个底物对以最大限度地提高与训练集的差异,同时确保杂环子结构和官能团空间的覆盖(图2B)。然后,作者根据计算机给出的建议着手合成和纯化,并针对基准条件和闭环优化期间发现的前3个最高产率普适性反应条件进行测试(图4A),同时在第5轮完成后按模型排名。尽管包含一些非常具有挑战性的合成砌块组合,但该过程成功率为95%,只有一种产物在所有四种条件下都没有可测的产率。ML发现的普适性反应条件明显优于先前报道和广泛使用的基准条件。与基准条件相比,前2个条件的平均产率在统计上显著增加,特别是最优条件使总平均产率翻了一番(21%→46%,图4B)。此外,比较产率的相对增加揭示了top-1与top-2和top-3条件之间的统计显著差异(图4C)。值得注意的是,实验产率与条件的预测排名相关,因此top-1的产率高于top-2,而top-2的产率又高于top-3。尽管作者预估纯化产物的极限分离收率为10%,但是在基准条件下只有11个产物达到,而在top-1条件下则有19个产物(图4D)。另一方面,在基准条件下延长低产率的偶联反应时间并不会提高产率。对所有20 种反应的副产物和产物形成的综合分析表明,ML发现的条件与降低质子去硼化(图4E)、卤化物转化率增加(图4F)以及产物与总副产物形成之比的总体统计显著增加有关。


图4. ML发现的反应条件的测试集。图片来源:Science


总结


利用数据引导矩阵向下选择、不确定性最小化ML和机器人实验,本文研究团队开发的简单工作流发现了(杂)芳基SMC反应的普适性反应条件,将人工优化的SMC反应的平均产率提高了一倍以上。毫无疑问,这种机器辅助筛选反应条件的策略不仅为解决具有多维度化学反应优化问题提供了一种可靠的解决方案,而且为自动化小分子合成提供了一条可行的途径。研究人员表示,论文中描述的机器学习过程也可以应用于化学的其他领域,为合成其他类型小分子甚至更大的有机聚合物寻找最佳反应条件 [1]


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Closed-loop optimization of general reaction conditions for heteroaryl Suzuki-Miyaura coupling 

Nicholas H. Angello, Vandana Rathore, Wiktor Beker, Agnieszka Wołos, Edward R. Jira, Rafał Roszak, Tony C. Wu, Charles M. Schroeder, Alán Aspuru-Guzik, Bartosz A. Grzybowski, Martin D. Burke

Science2022378, 399-405, DOI: 10.1126/science.adc8743


参考资料:

[1] Artificial intelligence and molecule machine join forces to generalize automated chemistry

https://news.illinois.edu/view/6367/1723467564 


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
教育学优质期刊列表
机器视觉光流体学光机电一体化
生物过程动态模型
Springer旗下全新催化方向高质新刊
风险管理自然灾害预警
可持续能源系统
1111购书享好礼-信息流
动物学生物学
心理学Q1期刊
编辑润色服务全线九折优惠
系统生物学合成生物学
英语语言编辑 翻译加编辑
专注于基础生命科学与临床研究的交叉领域
遥感数据采集
数字地球
开学添书香,满额有好礼
加速出版服务
传播分子、细胞和发育生物学领域的重大发现
环境管理资源效率浪费最小化
先进材料生物材料
聚焦分子细胞和生物体生物学
“转化老年科学”.正在征稿
化学工程
wiley你是哪种学术人格
细胞生物学
100+材料学期刊
人工智能新刊
图书出版流程
征集眼内治疗给药新技术
英语语言编辑服务
快速找到合适的投稿机会
动态系统的数学与计算机建模
热点论文一站获取
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
浙大
日本
北大
岭南大学
新加坡国立
南科大
中科院
南科大
北京大学
南科大
ACS材料视界
down
wechat
bug