逆合成分析是有机合成路线设计中最基本、最常用的手段,该方法从解析目标分子的结构入手,通过选择合适的化学键和官能团进行切断和转化,逐步将其拆解为简单易得的合成前体直至商业可得的初始原料。早期使用逆合成分析法设计分子合成路线的最大难点在于——人脑记忆能力有限,纵使是具有丰富经验的化学家也无法完全掌握多不胜数的化学反应。20世纪80年代之前,化学家将那些已报道的化学反应记录在交叉参考索引卡中(cross-referenced index card),在设计某个分子的合成路线时他们不得不将大量时间花费在相关反应的文献检索上。随着计算机技术的发展,这些辅助记忆的“备忘录”逐渐被淘汰,取而代之的是庞大的化学文献数据库,这些数据库收录了已公开发表的文献和专利中成千上万的合成路线,化学家们只需将化学转化中的分子结构输入计算机软件(如Scifinder和Reaxys)中,便可以通过数据库筛选出相似的反应路线。但是,要在这些海量的类似化学转化中找到真正适合的反应,仍依赖于化学家的知识和经验,甚至灵光闪现。
逆合成分析举例。图片来源:Nature
Chematica从纸上谈兵到实战演练
那么,如果计算机能拥有人类化学家的经验和知识,再结合超大容量的文献数据库是否就能轻松实现分子合成路线的完美设计呢?早在20世纪60年代,有机合成大师E. J. Corey教授就开发了一款名为LHASA(Logic and Heuristics Applied to Synthetic Analysis)的软件,可以根据当时已有的化学反应和录入的300个有机反应规则帮助使用者对目标分子的合成路线进行分析,但是由于缺乏足够有效的反应数据和规则,再加之计算机存储容量、数据处理能力和算法都无法满足需要,导致LHASA和其后继者们都未能取得真正的成功,直到一款名为Chematica的合成软件的出现。在过去的17年时间里,韩国蔚山国家科学技术学院(UNIST)的Bartosz Grzybowski教授及其团队为这款软件构建了一个包含约700多万个有机分子的超大数据库,并通过相似数量的有机反应将它们彼此连接形成化学网络,并且他们手动录入超过5万个有机反应规则来告诉Chematica任何小分子在反应中可能会发生的变化。化学家只需将目标分子的结构输入软件中,Chematica就可以根据一组搜索和分析此网络的算法在短时间内设计出合成路线,同时从成本、原料是否易得、反应步骤数、反应的操作难度等多方面对每条路线进行评价,最后综合决策最优合成路线(点击阅读相关)。
Bartosz Grzybowski教授。图片来源:UNIST
2017年5月,Chematica被德国制药巨头默克(Merck)收购。[1]尽管交易金额不详,但这意味着计算机辅助的合成路线设计已经获得了制药业的高度重视。不过,仍有许多化学家对Chematica持怀疑态度,他们并不相信奇妙、复杂的化学以及化学家的灵感可以被一堆代码分分钟搞定。
为了证明Chematica并不是纸上谈兵,最近Bartosz Grzybowski教授与美国西北大学的Milan Mrksich教授以及Merck旗下的美国MilliporeSigma公司的研发人员合作,使用Chematica在实验室进行了一场实战演练。他们选择了6个具有生物活性的分子、1个重磅药物(赛诺菲•安万特制药公司开发的抗心律失常药物dronedarone)和1个天然产物(engelheptanoxide C)作为目标物,而Chematica在3个小时内便提供出所有目标分子的理想合成路线和反应条件。化学家则按照这些合成路线在实验室里进行合成实验,以检验这些路线是否真的管用。研究者对每一步反应的条件进行了优化,并且为了增加难度他们给这场演练设置了一些限制条件,比如要求实验员筛选每步反应条件的次数不得超过5次,最终每个分子的合成总耗时必须控制在70小时以内。结果表明,对于其中的7个目标分子,Chematica创建的路线不仅与此前化学家报道的合成路线明显不同,而且步骤更少或是产率更高、耗时更短、成本更低。此外,第8个天然产物更是在Chematica的帮助下实现了首次合成。相关工作发表在近期的Chem 杂志上。[2]
实现Chemtica设计的合成路线。图片来源:Chem
Chematica的成功让有机合成大师K. C. Nicolaou赞赏不已,他说道,“这个结果振奋人心,可以促使药物合成大踏步前进。通过减少单调沉闷的逆合成分析工作,Chematica能够大幅提高实验室合成的效率。”[3] 另一位全合成化学家Richmond Sarpong说道,“Chematica给我留下了深刻的印象,我发现它在逆合成分析方面所展现的能力似乎要比人类化学家还要强。”Sarpong教授表示目前他的团队正在Chematica的帮助下进行着另一个分子的全合成工作。[4]
Chematica展示出的力量已经相当强大,Merck公司也表示他们不会限制使用Chematica设计出的合成路线的专利知识产权,并希望有更多的合成化学家能使用它。但Chematica并非没有缺憾,比如Chematica尚不具备自我学习能力,它的算法主要取决于有机反应规则,可以认为Chematica通过模仿人类化学家的思维方式进行工作,因此它并不会影响新的有机反应的发现,更不会取代人类的智慧,只是帮助化学家在合成某个目标分子时节约时间和金钱。再者,化学家通过人工编码的方式为Chematica录入化合物和反应规则,花费了整整17年时间才教会它如何用化学家的思考方式进行逆合成分析,这种难度和巨大投入使得类似的工具很难诞生。
那么是否有一个能快速“自学成才”并且能独立思考的计算机工具呢?答案是肯定的。
基于AI的逆合成分析
近日,上海大学的Mark Waller教授和德国明斯特大学的Marwin Segler博士等人在Nature 杂志报道了一款可以通过自主学习有机反应来设计分子合成路线的人工智能(AI)新工具。[5]这虽然并不是化学与AI的“第一次亲密接触”,但依然在有机合成领域带来巨大反响。原因很简单,这款AI新工具不需要化学家输入任何规则,只是基于已经报道的单步反应即可自行学习化学转化规则,并进行快速、高效的逆合成分析。当该AI工具被要求为目标分子设计一条合成路线时,它会像人类一样进行选择和判断,根据它学到的设计规则选出最有前景的前体分子,然后再进行合成可行性的评估,直到找到最佳的合成路线。这意味着,学习完规则的这款AI工具,可以完全不依靠人类已有的经验和策略,自行创造新的策略去寻找合成目标分子的最佳路线。
Marwin Segler博士(左)和Mark Waller教授(右)。图片来源:University of Münster / 上海大学
在该工作中,研究团队通过此前他们发展的深度神经网络(deep neural networks),[6] 从Reaxys数据库中2015年以前的1240万个单步反应中自动提取出化学转化规则,经过选择,仅保留其中在反应中重复出现超过一定次数的“高质量”规则。随后,他们使用三种不同的神经网络与蒙特卡洛树搜索(Monte Carlo tree search,MCTS)结合形成新的AI算法(3N-MCTS),依靠自动提取的规则数据进行训练和深度学习。
MCTS进行合成路线分析的原理示意图。图片来源:Nature
这里需要提一句的是,使用深度神经网络来提高蒙特卡洛树搜索算法的效率及精度,这一策略与2016年战胜围棋世界冠军李世石的“阿法狗(AlphaGo)”有异曲同工之妙。当然,新一代的AlphaGo Zero已经完全脱离任何人类数据,实现了真正的“自我学习”,与之相比,化学界的AI还有不少路要走。
训练完成之后,研究者以训练数据集中没有的分子合成路线(首次发表在2015年或之后)进行测试,来验证训练后的3N-MCTS算法的逆合成分析能力。3N-MCTS算法能够在短时间内给出数百个在2015年或之后公开发表的分子的合成路线。例如对于下图中的药物候选分子,算法提供了一条与文献报道完全相同的合成方案,却仅仅耗时5.4秒。在对2015年之后发表的435种复杂分子合成砌块的测试中,3N-MCTS算法能在单个目标分子限制时间为5秒的情况下完成了80%的分子合成路线设计;当限制时间延长至60秒时,这一比例提高到92%。而另外两种基于机器学习的算法Neural BFS和Heuristic BFS,需要将限制时长放宽至20分钟以上才能接近新算法的效率。此外,对于3N-MCTS算法无法在规定时间内预测合成路线的合成砌块,Neural BFS和Heuristic BFS算法也同样束手无策。
3N-MCTS快速进行逆合成分析。图片来源:Nature
毫无疑问,3N-MCTS算法在逆合成分析的速度上遥遥领先,那么其提供的分子合成路线的质量又如何呢?随后进行的一项双盲测试(测试执行者与受试者都不知道路线的来源)显示,针对9个相同的目标分子,45名经验丰富的化学家们对于3N-MCTS算法提供的合成路线与文献报道的路线并没有明显的偏向(下图a);而在3N-MCTS和Neural BFS算法设计的路线中,化学家们则明显更倾向于选择前者(下图b)。这表明新AI算法在预测分子合成路线方面已经超过目前的算法,并与人类化学家同样值得信赖。
双盲测试。图片来源:Nature
英国曼彻斯特大学设计逆合成分析软件的专家Pablo Carbonell认为这是一项具有里程碑意义的工作,“我们能看到的是这种人工智能可以抓住(化学方面的)专业知识”。[7]
阿斯利康制药公司的计算化学家Ola Engkvist非常看好这项工作的应用前景,他认为“AI可以提高合成化学的成功率,这将有助于药物研发项目提高速度和效率以及降低成本”。[7]
Segler博士表示目前已经有多家制药公司对他们的新工具产生了兴趣,但他并不认为这会对有机化学家的工作岗位构成威胁,“人工智能将成为合成化学家的新助手,这就好比GPS导航设备,尽管它能取代纸质地图,但它始终无法取代驾驶汽车的人”。[7]
当然,这种AI工具的出现并不是为了要证明机器比合成化学家要强,因为AI设计的路线有时也不管用,它们只是尽可能快的为化学家们提供成功概率高的合成路线,这可以让化学家把更多的时间和精力集中在对更深层次问题的思考上,比如“该合成什么样的分子”、“为什么要合成这样的分子”,而不是“怎样合成分子”。[8]
简评
计算机技术和人工智能的快速发展使得各行各业都面临着重大的变革,我们不得不承认,它们进入包括化学在内的科研领域是未来大势所趋。对于某些客观规律的探索,人工智能甚至很可能已经超越了人类科学家。回顾人类社会的发展历程,在历次科技革命中,最终受益的都是敢于创新和拥抱变革的人,而那些忽视和拒绝接受改变的人,最终结局往往是被时代抛弃。而且,“时代抛弃你时,连一声再见都不会说”。
“这是最好的时代,也是最坏的时代”,我们必须学会如何在这样的时代里生存。
参考资料:
1.https://www.merckmillipore.com/CN/en/20170505_202234
2. Efficient syntheses of diverse, medicinally relevant targets planned by computer and executed in the laboratory. Chem, 2018, 4, 522, DOI: 10.1016/j.chempr.2018.02.002
3.https://pubs.acs.org/doi/10.1021/cen-09610-leadcon
5. Planning chemical syntheses with deep neural networks and symbolic AI. Nature, 2018, 555, 604, DOI: 10.1038/nature25978
6. Neural-symbolic machine learning for retrosynthesis and reaction prediction. Chem. Eur. J., 2017, 23, 5966, DOI: 10.1002/chem.201605499
7.https://www.nature.com/articles/d41586-018-03977-w
8.https://www.nature.com/articles/d41586-018-03774-5
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!