钯催化的(杂)芳基亲电试剂与各种氮亲核试剂的偶联反应(即Buchwald-Hartwig(B-H)偶联)是构建C-N键最重要的反应之一。由于该反应能够耐受各种亲电试剂和亲核试剂,需要开发许多催化剂和条件以实现不同偶联试剂的成功反应。B-H偶联反应对配体结构的变化异常敏感,因此选择合适的钯配体至关重要。目前,化学家主要依靠自己的知识和经验,基于从文献报道中得到启发,反复试错来确定最佳的配体和条件,这相当耗费时间,成本高昂。如果遇到文献未曾报道过的B-H反应物,研究者能依靠的可能只有直觉,这进一步降低了成功的可能性。
2021年,Abigail G. Doyle教授开发了贝叶斯反应优化框架和开源软件工具(Nature, 2021, 590, 89-96,点击阅读详细),并将贝叶斯优化算法应用到反应条件优化中(如:Mitsunobu反应和脱氧氟化反应)。近期,美国伊利诺伊大学厄巴纳-香槟分校(UIUC)的Scott E. Denmark教授与瑞士罗氏公司(Roche)的Raphael Bigler和Serena Fantasia等研究者合作,开发了一种为钯(Pd)催化C-N键偶联反应选择底物适应性条件的机器学习工具,为特定的反应物对预测合适的配体、溶剂和碱。通过使用系统的实验设计过程,神经网络模型主动学习了大量C-N键偶联反应,并在实验验证中表现良好——样本外反应物的一系列偶联反应中以超过85%产率分离出10种产物。随着数据集的增长,开发的工作流程还将不断提高工具的预测能力。相关成果发表在Science 上。
图1. 本文的目标。图片来源:Science
从机器学习(ML)的角度来看,优化模型工具与本文发展的底物适应性模型工具之间存在着明显差异(图2)。由于B-H偶联对反应物结构非常敏感,因此经常需要重新优化。相比之下,本文发展的底物适应性模型工具能避免这一限制,这是因为其预先在整个反应空间上训练模型,而当选择新的特定偶联时,这些模型可以立即利用先前的学习来预测新反应的产率,同时无需额外的实验。如图2所示,B-H偶联反应空间的反应物维度实际上包含多个子维度,条件维度还包含溶剂、碱和催化剂,同时所有的维度都是独立的(亲核试剂、亲电试剂、催化剂、溶剂和碱)并且都会影响产率。因此,模型必须了解每种反应物的偏好以及各种组合之间的相互作用项,然后正确权衡这些反应物是否有用。为此,作者提出了一种基于分离反应物域的数据集设计新策略,通过结合专业知识、新的化学描述符和成熟的聚类技术,可以识别多维B-H偶联反应空间的代表性邻域(子空间)。在随后的实验中,可以迭代地生成新子空间中的新数据,并在使用新数据更新模型时扩大模型的适用范围。
图2. 优化模型与底物适应性模型的区别。图片来源:Science
图3显示了本文使用的50种氮亲核试剂中19种的代表性列表。以类似的方式,作者选择了50种(杂)芳基溴化物来代表药物研发中有价值的构建砌块。为了实现如此广泛反应物的有效偶联,结合算法选择和专业知识,作者选择了20种配体来代表反应空间的关键配体尺寸,同时选择两种无机碱(碳酸钾和叔丁醇钠)、一种有机碱DBU以及1,4-二氧六环、甲苯和叔戊醇作为代表性溶剂,这意味着本研究的反应空间(即亲核试剂、亲电试剂、配体、溶剂和碱)包含180个条件和2,500个反应物对的450,000种可能反应。首批实验包括了23种不同算法选择的反应物对,以及为每个反应物对系统设置的变化条件集。在24管平行反应器中进行的大量实验确定了可重复的条件。在180种可能的条件中(20种催化剂、3种溶剂、3种碱),为每对反应物评估了24种条件。数据显示63%的实验产率为0%,82%的实验产率低于20%。为了增加阳性hits的数量,他们训练机器学习模型以识别零和非零产率模式,并表现出较好的准确率。
图3. B-H偶联反应中氮亲核试剂的代表性范围。图片来源:Science
基于这些初步的模型,作者设计了新的工作流程(图4),以实验员为发起者和结束者。其具体流程如下:i)实验员选择新的反应物对;ii)该工具计算相应的化学描述符;iii)使用模型来预测180个条件的产率;iv)实验员可以根据预测结果和专业知识来决定评估哪些条件;v)添加新数据;vi)使用新数据重新训练模型;vii)在对照实验中测试这些模型;viii)实验员评估模型性能。实验员可以再次利用专业知识和对模型性能的评估进行干预,以选择下一个目标反应物对。实验员通过选择下一个反应物对来指导模型学习,从而扩展数据集,并构建所需的数据集。而数据集可以被视为一个网络,本工作的目标就是探索足够的连接(反应物对),以推断可能缺失的连接。
图4. 工作流程。图片来源:Science
图5. B-H反应空间反应物组分的可视化。图片来源:Science
为了评估模型性能,作者对13个反应物对进行了187次实验,结果显示其中10个反应物对可观察到>85%的最高产率(图6),其余3个反应物对产率较低。随后,作者使用两种样本外反应物将氮杂环庚烷与受保护的2-溴苯甲醇衍生物进行偶联(产物f),结果显示出非常好的准确性,预测产率和观测产率之间具有良好的相关性。相比之下,哌啶与3-溴-5-甲基吡啶的偶联涉及两种样品内反应物(产物g),同样具有非常好的准确性。2,6-二甲基苯胺衍生物对模型来说是新的亲核试剂,因为数据集中包含的所有伯(杂)芳香胺都没有邻位取代。作者对2,6-二甲基苯胺与一种样品外溴化物(4-苯氧基溴苯,产物i)和两种样品内溴化物(3-溴喹啉和3-溴硝基苯,产物j和k)的三种不同配对进行了24种条件评估,最佳预测产率范围分别为76-99%、83-99%和77-89%,这些结果表明对于不在数据集中的苯胺亚类,模型仍然能够识别出高产率条件。最后,5-氟粪臭素作为亲核试剂进行评估时,在预测产率最高的4种条件(40%-55%)中有2种条件获得了良好产率,分别为84%和85%。
图6. 底物适应性模型的实验验证。图片来源:Science
总结
本文研究团队开发了一种为钯催化C-N键偶联反应预测底物适应性条件的机器学习工具,其关键在于生成一个实验数据集以探索一组反应条件下反应物对的多样化网络。通过系统性的设计实验过程,神经网络模型主动学习了大量C-N键偶联反应,并能以令人满意的准确率预测高收率反应条件。实验验证表明,该模型性能良好。这种AI工具为钯催化C-N键偶联反应的开发提供了新的模式和思路。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed C–N couplings
N. Ian Rinehart, Rakesh K. Saunthwal, Joël Wellauer, Andrew F. Zahrt, Lukas Schlemper, Alexander S. Shved, Raphael Bigler, Serena Fantasia, Scott E. Denmark
Science, 2023, 381, 965-972, DOI: 10.1126/science.adg2114
导师介绍
Scott E. Denmark
https://www.x-mol.com/university/faculty/171
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!