远到数万年前的团队合作狩猎,近到用APP上网购物,大到高考结束选择一所理想的大学,小到今天出门穿什么衣服,人类在采取任何行动之前都会进行思考,化学研究也不例外。化学家在探索新反应和创造新分子的过程中,首先会进行一些初步尝试,在对结果进行归纳总结后,根据自己的专业知识、经验甚至直觉来指导下一步实验,如此重复直至获得成功或者接受失败而终止探索过程。尽管现今的机器人领域已经获得了长足的进步,但这种“三思而后行”的能力却是机器人们的软肋,内部的软件程序规则决定了它们几乎只能被动地执行命令,与科幻电影中叱咤风云的同类们相去甚远。
但英国格拉斯哥大学的Leroy Cronin教授(点击查看介绍)等研究人员却发现,机器人也可以拥有人类化学家的“直觉”。为了证明这一点,他们开发了新的机器学习(machine learning)算法控制有机合成机器人,可以在完成实验后独立“思考”,以便搞清楚并决定下一步该如何进行。与人类化学家在实验中采取行动的方式一样,机器人也可以独立自主地探索化学新反应和新分子,此外,它们更具备了准确预测化学反应结果的能力。相关成果近日发表在Nature 杂志上。
帅气的Leroy Cronin教授。图片来源:University of Glasgow
与多数人印象中有手有脚的机器人不同,这个有机合成机器人系统大部分零件被摆放在一个通风橱中(图1b)。它的核心部件包括一组装有化学品的原料罐和压力泵,这些泵负责将反应物送入可并行操作的6个反应瓶中,待反应结束,再将混合物依次送入红外光谱仪、质谱仪、核磁共振仪中进行检测(图1a、1b),最后使用支持向量机(supported vector machine,SVM)模型对比反应前后的指纹图谱判断原料是否产生了化学反应以及反应活性的程度(图1c、1e、1f)。看到这里,这种有机合成机器人系统的结构也就比较明晰了,就是一种以人工智能(AI)机器学习算法为“大脑”的全自动反应和分析系统。
图1. 具备机器学习能力的合成机器人系统。图片来源:Nature
虽然AI与化学领域已经有过多次交融,但是这项研究中AI却有着与众不同之处。无论是此前AI预测反应的产率(点击阅读相关)或是设计合成路线(点击阅读相关),科学家们都需要从化学反应中提取大量的化学信息(例如反应物结构信息)并转化为一定格式的数据,以便机器进行学习。而令人惊讶的是,这项研究中的AI机器人无需提取化学信息,也无需任何化学知识,仅凭简单的“数字化”数据来描述每个反应,并进行机器学习算法的训练。
具体来说,机器人对整个实验中的所有变量都采用二进制编码,即用一组由0和1数字构成的向量来描述每一个反应(类似于“独热编码”,one-hot encoding),以便训练机器学习算法。例如,在一个反应条件固定的实验中(即所有反应原料为变量),它将出现的起始原料定义为1,而没有出现的起始原料则定义为0,将这些简单的数字组成一个包含所有反应物信息的向量用来描述该反应的特征,并作为机器学习的输入端数据(图1d)。另一方面,支持向量机模型则通过识别反应前后谱图的变化来判断是否产生化学反应并进行分类:如果反应活性很高,那么该实验的结果将定义为1,反之则为0,以此作为机器学习的输出端数据(图1c)。接下来,机器人会使用线性判别分析(linear discriminant analysis,LDA)算法,对这些无关化学结构的“数字化”数据进行学习,寻找反应背后的规律,并预测不同变量情况下未知反应的结果,从而指导下一步实验。听起来有些不可思议,仅凭“数字化”数据,没有任何化学背景的机器人“化学家”真能做好人类化学家的活吗?
图2. 机器人“化学家”的工作模式。图片来源:Nature
该研究中,研究人员希望从18个化合物中快速地找出可以产生化学反应的原料组合,为了减小工作量,反应使用统一的条件,并且只专注于两组分和三组分反应——大约1000个实验。机器人首先随机地选择了100个实验进行初步尝试,通过SVM模型判定实验结果后,使用LDA算法对“数字化”数据进行归纳和总结。随后,AI会根据自学的知识对剩余实验预测并反馈,在此基础之上,机器人会优先选择它认为最有可能产生化学反应的100个实验开始第二次尝试。每完成100个实验采样,机器人都会自动更新自己的数据库并使用算法重新学习,在重新评估剩余的反应后继续100个新的尝试,直到完成指定数量的实验或是它判断剩余实验不会产生化学反应为止。最终的结果是机器人每次都能从余下实验中挑选出更具反应活性的化学物质组合进行探索,并且每一次预测的准确率都能保持在80%以上。通过像人一样“三思而后行”的工作模式,机器人还发现了一些前所未有的反应类型和分子(图4)。
图3. 机器人“化学家”探索多组分反应。图片来源:Nature
图4. 机器人“化学家”发现新反应和新分子。图片来源:Nature
除了能像人类化学家一样探索新反应,机器人还可以干一些化学家们力不能及的活——预测化学反应的产率。研究人员为机器人增添了一种神经网络(neural network)算法,仍然使用与化学无关的“数字化”数据来描述5760个Suzuki-Miyaura偶联反应(图5a),神经网络对其中的3456个实验进行学习后(图5a),可以对其余2304个Suzuki-Miyaura偶联反应的产率进行准确预测,标准误差仅为11%(图5b)。
这种程度的成功并不能让机器人“化学家”背后的化学家满足,因为大量的数据往往需要大量的实验来支撑,即使使用高通量自动化反应系统,依然会耗费不少的资源。显然,如何借鉴少量的实验数据来快速找出高产率的化学反应才是真正的制胜之道。随机挑选了576个偶联反应进行学习后,机器人化学家在余下反应中选择了前100名预测能获得高产率的偶联实验开展测试,初步的结果表明这些反应的真实平均产率并不高,只有39%,预测误差也较大(27%)(图5c,yellow)。尽管如此,导入这100个新数据并重新进行机器学习之后,机器人的预测水平有了大幅度提升,它在剩余反应中挑选的前100名准高产反应的真实平均产率达到了85%,预测标准误差仅为14%。随着数据的更新和不断地学习,机器人不仅能在随后的每一次预测中保持高水准,还总能从余下实验中优先找出真实产率相对高的反应(图5c,green)。
图5. 机器人“化学家”预测Suzuki-Miyaura反应的产率。图片来源:Nature
在接受采访时,领导这项研究的Leroy Cronin教授透露,这项工作中的机器人最初来源于一个探索生命起源的研究。换句话说,就是第一个可以组装、复制和进化的分子是如何从无机物质生成的。为了找出答案,他们开发了一个化学搜索引擎,试图通过简单的分子制造更复杂的分子,当获得第一个结果后,Cronin教授意识到机器人还可以用于更实用的领域,比如发现新的药物和化学物质。谈到AI机器人是否有可能取代化学家时,Cronin教授则认为恰恰相反,人工智能机器人只是在帮助化学家节约脑力和体力,以保证他们能把更多的精力和时间用在思考更有趣的问题上,“很多人都将智能机器人误认为是一种有知觉的东西。事实上,它只不过是一种回归算法。训练(算法)离不开化学家,没有他们也就没有人工智能。” [1]
对于这款升级版的机器人,Cronin教授自信地表示,它在某些方面比DeepMind开发的人工智能算法(AlphaGo等)更好。“这并不是说DeepMind不好,至少在算法和虚拟方面,我们的机器人表现更出色,因为它可以独立自主地发现一些人们无法预料的新东西,它向人们展示了自己的洞察力和创造力。” [1] Cronin教授十分期待在未来某一天,他们的机器人可以和世界上最好的有机化学家来一场比赛,就像AlphaGo与围棋大师们的人机大战一样。
总结
人类的时间是有限的,你不能指望科学家把一整天的功夫都花在对新事物的探索上。而现在,机器人可以做的更多,除了机械地执行命令进行实验操作外,它们还可以像人类一样进行思考。以机器学习算法为基础,人们无需提取化学信息,也无需任何化学知识,仅仅通过无关化学的数字化数据学习,机器人就能以自己的方式发现化学反应背后的规律。通过实时探索化学空间,它可以帮助化学家探寻出更多、更有用的分子和反应,可以让药物研发过程降低成本、缩短时间、减少浪费。毫无疑问,智能机器人的出现正让化学变得更简单,并将促进化学进入新的数字化时代。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Controlling an organic synthesis robot with machine learning to search for new reactivity
Nature, 2018, 559, 377, DOI: 10.1038/s41586-018-0307-8
导师介绍
Leroy Cronin
http://www.x-mol.com/university/faculty/48462
参考资料:
1. https://www.wired.co.uk/article/robot-chemist-life-on-earth
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!