全合成AI，通过化学版“图灵测试”

chem化学科普2020-12-084.0W

现如今人工智能（AI）发展非常迅速，已经不知不觉间深入我们的日常生活。同样，AI也正在快步走进科研世界，有机化学领域亦不例外。在这个投料、监测、纯化、表征都能一条龙全自动、高通量完成的时代，各位有机从业者在互相调侃何日下岗的时候，心中多少还留有一丝丝幻想——拼劳力拼不过机器，但动脑筋总还不至于会输……吧？在有机化学领域，最烧脑的莫过于天然产物全合成，多少博导为此皓首，多少博士为此延期。特别是结构复杂、需要多步合成的天然产物，设计合理的合成路线，更是要求化学家知识、经验、创造力缺一不可，甚至往往还需要一点点运气。这样的工作，AI总比不过人脑吧？

现状也的确如此。虽然已经多个化学软件可以自主地计划合成路线，但这些程序往往一次只能“思考”一个反应步骤，并且到目前为止也仅局限于相对简单的目标化合物，“能力”一般。可以这么说，如果真要设计这类简单化合物的合成路线，与其敲键盘点鼠标输入，还不如给人类化学家一张纸一支笔，几分钟内就可以搞定，简单又高效。而对于让人类化学家都头痛的复杂天然产物，现在还没有AI算法能拿出大家认可的可行合成路线。但别忘了，AI最大的特点就是进步神速。大家可能还记得AlphaGo在2016年对阵围棋世界冠军李世石时还会输一局，但短短一年后AlphaGo Master就能以60:0横扫所有人类对手，而更进一步的AlphaGo Zero根本不再学习人类棋手的经验，通过自我博弈学习，轻松打败AlphaGo Master。

该来的终究要来，谁也阻挡不了时代的脚步。这不，AI正式地向复杂天然产物的多步全合成发起了挑战。前不久，波兰科学院的Bartosz A. Grzybowski、Jacek Mlynarski、Karol Molga和美国西北大学的Milan Mrksich等研究者对化学软件“Chematica”进行了改进，使其可以设计出复杂天然产物的全合成路线。该程序设计的路线与人工设计的路线几乎没有差别，并且在实验室中成功地验证了该程序设计的三种天然产物的合成方法。相关成果发表在Nature 上。

全合成AI，通过化学版“图灵测试” 第1张

在可能的反应网络上进行全自动合成路线设计。图片来源：Nature

说起Chematica，这也不是它的首秀了。从问世到现在的多年中，不乏各种关于Chematica的文章报道，并且还大多刊发在一区期刊。这次它强势来袭，荣登Nature 确实是得到了实质性的升级强化。尽管此前版本的Chematica能够有效地设计合成路线，但要想将其扩展到复杂天然产物的合成中仍颇具挑战且需要大量改进（图1）。为此，作者在Chematica中引入机器学习算法，教它“学会”超过十万个基于机理的反应规则，尤其是立体选择性和骨架转换，同时为它建立筹划合成路线的各种规则，最后用神经网络算法进行打分排序。说了这么多，我想大伙应该对算法啊、代码啊之类的并不感冒。最关心的可能也就这么几个问题，这程序算不算AI？这程序给出的路线靠不靠谱？这程序是不是无所不能到任何复杂结构都能给出合成路线？

要评价一个程序算不算AI，有个经典的评判标准，那就是大名鼎鼎的“图灵测试”（Turing test）。顾名思义，这是由“计算机之父”艾伦•麦席森•图灵提出的一种判别机器是否具有类似人类智能的测试，简言之就是让测试人员去判断跟他交换信息的是真人还是机器。为了验证Chematica的能力，作者进行了化学版的“图灵测试”，他们称之为“类图灵测试（Turing-like test）”。他们收集了40个全合成路线，其中20个来自近20年来各种有机化学期刊，另外20个则完全由Chematica设计。随后，邀请18名合成化学家对这40个全合成路线进行来源推测评分（0分代表人工设计，10分代表程序设计）和精妙程度评分（0分代表毫无创新，10分代表精妙设计）。

从所有路线的平均HVM得分来看，Chematica设计的路线仅比文献路线高0.6分（⟨HVM_{human-designed}⟩ = 4.58, ⟨HVM_{machine-designed}⟩ = 5.17）；而从设计的精妙程度来看，Chematica设计的路线更精妙一些（⟨E_{human-designed}⟩ = 4.55, ⟨E_{machine-designed}⟩ = 4.75）。此外，作者还为每位合成化学家绘制了接受者操作特征曲线（receiver operating characteristic curve，ROC曲线）。ROC曲线下的面积（area-under-the-curve，AUC）为0.53，标准误差为0.03，这意味着化学家组的猜测与随机猜测一样。总之，这些结果说明合成化学家们无法有效分辨哪些路线是来自人工设计，哪些路线来自Chematica。也就是说，Chematica通过了化学版的“图灵测试”，是当之无愧的AI。

全合成AI，通过化学版“图灵测试” 第2张

化学版的“图灵测试”结果。图片来源：Nature

有同学可能会问了，会不会是这18名合成化学家的水平不够呢？作者在全文最后的致谢部分对参评专家进行了感谢。不知道大家如何评价，至少本君认为这个阵容还是相当强大。

全合成AI，通过化学版“图灵测试” 第3张

18名合成专家名单。图片来源：Nature

下一个问题来了，Chematica设计的合成路线是否仅仅纸上谈兵，无法实现呢？为此，作者选择了三个复杂程度不同的天然产物作为研究对象。以最简单的天然产物(-)-Dauricine为例，这是一种有效的自噬阻断剂和抗癌剂，迄今为止仅能通过Bischler-Napieralski反应以外消旋的形式合成；第二个是最近分离出来但尚未合成的iboga alkaloid，又称为(R,R,S)-Tacamonidine；最后是2017年分离出的Lamellodysidine A，它是一种桥联的多环倍半萜，含有一个四环碳骨架，具有七个连续的（包括三个季碳）立体中心和一个对酸不稳定的半缩醛，迄今为止仍无法实现其全合成。相比之下，Chematica为上述三个天然产物设计了多条合成路线，并从中选择了一条最佳的合成路线。基于Chematica给出的合成路线，作者在实验室中成功地将三种天然产物合成出来，且反应的收率较好。大家可以欣赏一下来自AI的全合成路线。

全合成AI，通过化学版“图灵测试” 第4张

Dauricine的全合成。图片来源：Nature

全合成AI，通过化学版“图灵测试” 第5张

(R,R,S)-Tacamonidine的全合成。图片来源：Nature

全合成AI，通过化学版“图灵测试” 第6张

Lamellodysidine A的全合成。图片来源：Nature

不知道各位同学看了上面三个合成路线做何感想？咱们的读者藏龙卧虎，其中肯定有全合成牛人，不知道各位花多少时间能设计出这样的合成路线呢？不怕你们笑话，以本君卑微的水平，恐怕打死也设计不出来。所以，做全合成的同学，是不是有点兵临城下、如芒在背的感觉呢？先别慌，这程序目前的版本还没那么万能。作者在文中直言不讳，Chematica对一些天然产物（如紫杉醇、Ryanodol、CJ-16,264）还不能设计出合适的合成路线。作者对其可能的原因也进行了猜测分析，同时提出了一些Chematica改进优化方向。也许当算力下一次划时代突破时，天然产物全合成的桂冠已被人工智能摘下，有机化学行业又将重新洗牌。请诸君拭目以待。

Nature, 2020, 588, 83–88, DOI: 10.1038/s41586-020-2855-y

标签： AI

本文地址：https://www.chemrss.com/921.html