机器人及人工智能(AI)技术的飞速发展,也带来了实验自动化的快速进步。还记得前不久我们报道过的登上Nature 封面的机器人化学家吗(Nature, 2020, 583, 237-241,点击阅读详细)?它可以在实验室内“跑来跑去”(下图),独立执行各项任务,7天×24小时做实验(除去充电时间,每天做实验时间实际为21.5小时);还有无需人类化学家输入任何规则,可以通过自主学习有机反应来完成逆合成分析、设计分子合成路线的人工智能(AI)系统(Nature, 2018, 555, 604,点击阅读详细);以及即可循环合成又可线性合成,有希望让化学家在家敲敲键盘、点点鼠标就能远程把实验做了的自动化径向合成(radial synthesis)系统(Nature, 2020, 579, 379,点击阅读详细)。
看着来势汹汹的各式各样机器人“实验员”,不可避免,不少科研工作者心里都有点慌。但实话实说,它们离彻底代替人类还差的远,至少目前如此。这些机器人“实验员”往往适用于特定或有限的反应类型,而且需要化学家懂得编程或者与程序员配合提前进行大量的编程。此外,有一点比较尴尬,由于目前研发自动合成机器人的团队各自为战,缺乏标准的操作系统和通用的化学编程语言,各种不同机器人“实验员”之间相互无法兼容,相关程序也无法通用。举个不一定恰当的例子,就好比如果你的机器人“实验员”是Windows操作系统,就跑不了别人机器人“实验员”Linux操作系统的程序。这就意味着,一模一样的反应换一个机器人“实验员”,就需要重新写一遍代码;而针对一类实验的机器人“实验员”想做另外一类实验,也同样需要写一遍代码。还有一点更尴尬,机器人“实验员”普遍不能直接从文献中提取实验信息,需要人类化学家看完文献后把实验方法部分提取出来,并将其转换为机器人可执行的指令,这一过程费时费力且容易出错,再加上此前提到过的缺乏标准的操作系统和通用的化学编程语言,这巨大的工作量,想想还真不如自己撸胳膊挽袖子上实验台……
说机器完全不可能看文献,这也不一定,当前人工智能技术中存在一个分支——自然语言处理(natural language processing),就是用计算机来处理、理解以及运用人类语言。大量化学论文中的实验方法实际上也有可能通过自然语言处理技术转化为机器人“实验员”能够“听懂”并执行的命令。而且,无论是人类还是机器人“实验员”,看文献合成化合物的工作流程都遵循着一组固定的步骤,并且两者之间存在一定的相似之处(图1B)。通过比较两者的工作流程,便可发现,如果能解决针对化学文献的自然语言处理问题,机器人“实验员”完全有可能自动完成从看文献到合成化合物的数字工作化流程。
图1. 人工及自动化化学合成的工作流程示意图。图片来源:Science
英国格拉斯哥大学化学系的Leroy Cronin教授(点击查看介绍)课题组就尝试解决这一难题。他们希望开发一种新的系统结构,基于以标准化学语言表示且不依赖硬件的化学代码将文献“数字化”,并用于指导几乎任何分子的自动合成(图1A)。近日,他们在Science 上报道了一种可扩展化学执行平台,可自动阅读和识别文献中的合成步骤,并将其转化为实验机器人系统可读取的指令,实现了通用的自主合成工作流程(图2)。化学家无需任何编程知识,使用自然语言就可修改自动识别的合成步骤,按照需要设计自己的实验。目前,使用该平台他们已经实现了从文献中自动合成12种化合物,包括止痛药利多卡因、Dess-Martin氧化剂和氟化剂AlkylFluor。这种平台有望与各种实验机器人系统整合,增强它们自主进行合成实验的能力。
图2. 系统工作流程示意图。图片来源:Science
图3. 系统架构和运行示意图。图片来源:Science
整个平台的关键便是自然语言处理,他们开发了一种名为SynthReader的计算机程序(图4),可以处理科学论文并识别描述有机和无机化学合成步骤的部分,自动将这些步骤分解为简单的指令,并以被称为“化学描述语言(XDL)”的格式进行存储。XDL是该研究团队开发的一种描述化学和材料合成的新开源语言,原则上任何实验机器人系统都可以读取。
图4. SynthReader的运行和性能示意图。图片来源:Science
他们还构建了一个可以与任何实验机器人系统集成、易于使用的交互界面ChemIDE,此前已经数字化的合成步骤在界面上以自然语言展示,因此化学家无需任何编程知识,使用自然语言就可以对已经数字化的合成步骤进行必要的修改,使之符合实验实际需求(例如,图2第二步中关于“是否需要搅拌”的修改,以及下面动图中的操作)。至于合成所需要的硬件设备及器材,在界面中以虚拟硬件的形式与现实中的设备及器材对应。设置好合成步骤和所需硬件及设备,随后就是系统控制实验机器人完成合成过程。
为了验证该平台的实用性,他们详细介绍了三种化合物——利多卡因、Dess-Martin高碘烷(DMP)和AlkylFluor的“从文献到化合物”的合成过程(图5)。最终,以53%的收率得到利多卡因,以52%的总收率得到DMP产物,以23%的总收率得到AlkylFluor(平均每步产率75%)。值得一提的是,作者还成功地在他们先前报道的定制高通量化学机器人上完成了多金属氧酸盐(C2H8N)8Na3[W19Mn2O61Cl(SeO3)2(H2O)2]Cl2•6H2O的“从文献到化合物”的合成,而这种化学机器人所使用的指令设置与此前合成利多卡因、DMP和AlkylFluor的实验机器人完全不同,这说明了该平台的通用性。
图5. 多种化合物的“从文献到化合物”合成。图片来源:Science
Leroy Cronin教授课题组这个“从文献到化合物”的自动化系统概念确实非常吸引眼球,其中最重要的就是基于自然语言处理的化学合成文献的数字化和标准化。这让笔者暗暗赞叹他们的“野心”——制定化学数字化的标准——大家都知道,行业的标准制定者有多大的影响力。相比之下,ChemIDE的所见即所得以及自然语言修改就显得没有那么震撼了。
尽管加上了“看文献”的功能,笔者还是觉得目前的实验机器人系统更像是一个更得力的工具,远远谈不到取代人类。就Cronin教授这个系统而言,还不是需要有经验的人类科学家去判断自动识别的步骤是否正确嘛……而且,就算将来进一步发展,不需要人类科学家来判断自动识别的正确与否,实验机器人的意义也应该是让科学家充分“解放双手”,把时间花在思考更有意义的问题上,比如“为什么要合成这样的分子”,而不是“怎样合成这样的分子”。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
A universal system for digitization and automatic execution of the chemical synthesis literature
S. Hessam M. Mehr, Matthew Craven, Artem I. Leonov, Graham Keenan, Leroy Cronin
Science, 2020, 370, 101-108, DOI: 10.1126/science.abc2986
导师介绍
Leroy Cronin
https://www.x-mol.com/university/faculty/48462
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!