即使项目做不出来，也有机会发高质量JACS

chem化学科普2022-06-181.6W

如今能够发表在顶尖学术期刊上的论文，一般都是各个科研小组的成功工作，而成功背后那些多得多的失败，则少有机会能登上前台。反复失败之后能获得成功，虽然辛苦但还算幸运；如果真的不走运，那么研究的课题最终可能会被实验证明成功无望。不甘心失败换个思路再“挣扎挣扎”？还是接受命运立刻转向？今天与大家分享一篇近期读到的JACS 论文，或许能给各位带来一些启发。

这篇文章涉及近年来流行的人工智能（AI）在合成化学中的应用，来自美国伊利诺伊大学厄巴纳-香槟分校（UIUC）的Martin D. Burke教授和Allchemy公司创始人、波兰科学院有机化学研究所Bartosz A. Grzybowski教授领导的研究团队。他们原本的目标是通过机器学习（ML）来预测有机反应的最佳条件，由于近年来机器学习在设计实验、预测反应收率、设计合成路线、自动化合成方面的快速发展，这个课题看起来似乎成功就在眼前。但现实却给他们泼了一大盆冷水，经过大量的实验，他们发现无论如何也无法为常见的杂环Suzuki−Miyaura偶联预测最佳反应条件——即便精心挑选超过10,000篇文献组成一个足够大且高质量的数据集以供训练模型，即便采用目前最先进机器学习技术——图卷积神经网络（graph-convolution neural network, GCNN），他们所建立的机器学习模型都无法对最佳反应条件提供任何有意义的预测，能力与简单的文献流行趋势统计并无二致，就算把搜索对象仅限于溶剂和碱也一样不行。

即使项目做不出来，也有机会发高质量JACS 第1张

图1. 本文介绍的AI预测化学反应条件的失败案例。图片来源：JACS

这不科学啊？说好的AI超越人类呢？（注：这是笔者看到本文时的第一想法，原文作者有没有这么想过并不知道……）

即使项目做不出来，也有机会发高质量JACS 第2张

图2. 本文所研究的杂芳基-杂芳基或芳基-杂芳基Suzuki偶联反应。图片来源：JACS

具体来说，作者从Reaxys数据库中检索参与Suzuki偶联反应的成对化合物，并剔除没有报告产量、或来自专利文献的样本，检索到16,748例报道了催化剂钯、碱和溶剂的反应，其中有13,337例报道了反应温度，1,037例反应有相同的底物和产物但反应条件不同。他们将多种反应参数进行了分类，结果显示92%的反应使用了5种类型的钯催化剂，使用频率最高的是Pd(PPh3)4；反应温度多集中在80-109 °C；有82%的反应使用了5种碱，其中碳酸盐使用频率最高。基于上述分析，他们将预测参数限定在溶剂和碱上。

即使项目做不出来，也有机会发高质量JACS 第3张

图3. 基于文献的反应条件（钯催化剂、温度、碱、溶剂）统计。图片来源：JACS

在上述参数限定的前提下，他们的主要任务是开发机器学习模型预测参与Suzuki偶联反应的给定化合物应该选择哪种碱及溶剂。他们首先构建了含两个隐藏层（130和15个神经元）的前馈（feed-forward）神经网络模型。结果显示，使用这些方法后预测精度没有明显变化，且对碱的预测精度要显著高于溶剂。由于上述前馈神经网络模型相对简单，他们又引入了目前最先进的图卷积神经网络模型和统计校正法进行评估。遗憾的是，这些改进方法依然没有明显提高模型预测精度。为提高预测精度，他们又尝试将产率信息加入模型中，首先训练模型基于所有可能的反应条件预测反应产率，然后，针对一对给定化合物选择对应于最大产率的最优反应条件。结果显示，产率预测的平均绝对误差相似，约为16%，预测的最佳和最差反应条件差异度只有5%-10%，远远低于实验中实际观察到的20%-30%，这表明预测模型对反应条件并不敏感。值得注意的是，这些预测结果还不如基于频率的基线模型。接下来，他们还评估了以往报道过的预测反应条件的机器学习模型，结果显示，三种此前报道的模型在溶剂和碱的预测上与他们的GCNN模型相当，表现都一般。为了排除数据来源的影响，他们还更换了数据库，使用USPTO的5,434个反应重复了上述实验，但是模型预测精度并无明显变化。

足够大且高质量的数据集，以及目前最先进的机器学习技术，这在其他化学研究中——比如根据底物预测产物收率——已经足够取得成功了，为什么在预测最佳反应条件时就不行呢？作者认为，这可能还是与数据集有关。用于构建机器学习模型的描述符基本描述的都是“纯化学”信息，比如结构、空间和电子信息，因此机器学习模型就十分善于进行“纯化学”问题的预测，比如根据底物预测产物收率。但反应条件预测显然不一样，除了反应物、产物和试剂的结构特征外，它还涉及“人”的因素：反应条件的选择通常基于相关文献，那些热门文章（被引次数多、影响力大的）中的反应条件往往会成为各个实验室的首选，这也能解释为什么作者机器学习模型的反应条件预测能力与简单的文献流行趋势统计并无二致；无论是基于经验还是传统，不少实验室都有自己的试剂/溶剂使用习惯以及常用反应条件偏好，而且这些习惯和偏好有时候甚至毫无道理可言。以上这些“人”的因素，很难量化为各种“描述符”。这样说来，机器学习模型在预测反应条件时表现不佳就变得可以理解了——既然有部分信息根本没有提供给机器去“学习”，“考试”结果不理想也就毫不意外。

至于如何解决这个问题，作者认为要通过系统和标准化的实验来增加可用的文献数据。在这些实验中，反应在多种条件下重复，得出有意义的结论，产生高质量、可靠、标准化的数据集。当然，只是为了产生更多的数据让人类化学家去重复劳动显然不可取，合成自动化的最新进展应该可以使这种努力成为可能，至少对于一些热门的反应类别来说是这样。

J. Am. Chem. Soc. 2022, 144, 11, 4819–4827, DOI: 10.1021/jacs.1c12005

本文地址：https://www.chemrss.com/1490.html