从“废物”合成药物,看算法“逆天改命”

chem 15190 0

化学工业不得不面对的问题之一就是在制备产品的同时会产生大量的废弃物。化学废弃物不但会降低生产效率,而且处理不好的话还可能污染环境。尽管近些年来“绿色化学”和有害化学废弃物降解等领域都取得了不少进展,但“循环化学”——将化学废弃物(至少一部分)转化为有价值的产品,相关研究却不成体系,并且关注度也仅集中在几个较为热门的方向。系统性地分析哪些有价值的产品可以从不同的化学废弃物中合成出来,这无疑是很大的挑战,因为即便是少量的化学废弃物也可以在几个步骤内产生数以百万计的可能产物,每个产物都可由多种途径合成,形成密切相连的网络。追踪这些反应并选择同时符合过程化学和绿色化学标准的合成,几乎是化学家不可能完成的任务。


近日,来自AllChemy公司、波兰科学院有机化学研究所和韩国蔚山国立科学技术研究所(UNIST)的Bartosz A. Grzybowski教授团队在Nature 上发表研究论文,他们使用正向合成程序Allchemy,从可商业规模回收的189种废弃化学品中生成了超过3亿个分子的反应网络,并从网络中检索到数万条从“废物”到重要药物和农用化学品的合成路线,并根据可持续化学指标对合成路线进行排名。随后,作者通过实验验证了其中几条路线,并且在流动化学平台上模拟真实工业环境进行了验证。


反应网络的构建


作者首先从文献、机构和公司中收集资料,将189个小分子确定为大规模工业工艺的“废物”副产物(部分“废物”结构如图1所示)。

从“废物”合成药物,看算法“逆天改命”  第1张

图1. 代表性的工业“废物”分子及其对应的地区分布。不同颜色的星号表示不同地区:北美(橙色)、欧洲(蓝色)、亚洲(绿色)。图片来源:Nature


随后,作者通过不断迭代约10,000个专家编码的反应规则,使每代产生的分子与前几代的产物和原始底物结合,并重复循环直到达到用户定义的代数限制(图2a)。由于这种方法产生的反应网络(图2b)会随着底物的数量和代数(图2c、d)而迅速扩展,作者将网络生成偏向于合成感兴趣的高价值分子(包括来自DrugBank的2,466种批准的药物和1,647种农用化学品)。在这种方法中,每一代迭代反应的产物只有在(1)MW小于150或者(2)MW介于150至500但与目标分子的相似性低于阈值的情况下才会保留。通过这种方式,只需要多核工作站数天的计算,就能得到迭代7至8代、包含数亿个分子的反应空间。

从“废物”合成药物,看算法“逆天改命”  第2张

图2. a)迭代“正向”合成策略示意图。G0表示最初的原料分子,G1是遍历反应规则得到的产物,以此类推。b)以异丙醇、甘氨酸、甲醛和3,4-二羟基苯基乙二醇为原料遍历4次后得到的反应网络示意图。c)迭代三次后得到的平均产物数目随底物数量呈指数增长。d)平均产物数目随迭代次数呈现比指数更快的增长。图片来源:Nature


反应路线检索和排名


迭代7次后,得到约3亿个分子的反应网络。随后作者用广度优先搜索算法检索连接原料(189个“废物”小分子)和目标分子(2,466个上市药物分子和1,647个农用化学品),识别出69种药物和98种农用化学品的合成路线。由于网络的高度互联性,目标分子通常有多种合成路线(平均每个分子检索到216条路线),因此需要对它们进行排名挑选出绿色环保且高效的路线。作者的路线排名依据9个惩罚项:X1 = 使用有害试剂的惩罚;X2 = 使用有问题溶剂的惩罚;X3 = 极端温度的惩罚;X4 = 与反应放热或吸热成正比的惩罚;X5 = 执行每个反应步骤的“成本”(步骤越少越有利);X= 对低原子经济性的惩罚;X7 = 对线性路线(非汇聚路线)的惩罚,并考虑汇聚点的位置和平均产率;X8 = 路线的原料来自不同地区的惩罚;X9 = 对高PMI(过程质量强度:所有原料的质量与目标产物质量的比值)路线的惩罚。


然而,仅用189个“废物”小分子作为原料无法得到结构更复杂的分子骨架。为此,作者增加了1000个常用的试剂作为原料。迭代8次后,得到了额外71个药物和20个农用化学品的合成路线。图3展示了预测的mirabegron从“waste to drug”的反应网络。其中,最内圈为辅助原料,外圈红色标记为工业“废物”分子,黄色椭圆圈住的为有害物质,不同颜色的星标代表不同地区,带颜色的反应箭头为文献报道过的反应。

从“废物”合成药物,看算法“逆天改命”  第3张

图3. 预测排名靠前的药物分子合成路线。图片来源:Nature


实验验证


如图4所示,作者首先选择4个分子的预测路线进行实验室规模的合成,这些路线的选择依据是预测了有趣的反应(如Smiles重排)、工艺绿色环保或者路线中存在大量此前没有报道过的步骤。最终这些反应都能在较绿色的反应条件下合成并得到不错的产率。其中,黄色星号标记的是此前没有文献报道的反应,有颜色标记的则为文献报道过的反应。反应条件中,红色字体标记的为有毒试剂,绿色字体标记的则为“绿色”试剂。反应原料中,红色标记的为工业“废物”,粉红色标记的则为常用商业试剂。

从“废物”合成药物,看算法“逆天改命”  第4张

图4. 实验验证的“waste to drug”的药物分子合成路线。图片来源:Nature


接下来,为了测试预测路线的实用性,作者以掺入杂质的废水作为原料(模拟真实工业环境),在流动化学平台上进行了实验验证。如图5所示,作者选择了3个新冠病人急需的药物作为测试例子,包括肌肉松弛剂cisatracurium的关键中间体(分子22)、镇静剂midazolam的关键中间体(分子25)和麻醉剂propofol(分子28)。可以明显看出,这些反应都相对简单常见,作者最终也已较优的PMI值合成以上分子。

从“废物”合成药物,看算法“逆天改命”  第5张

图5. Allchemy设计的cisatracurium关键中间体(a)、midazolam关键中间体(b)和propofol(c)的“waste to drug”合成路线。图片来源:Nature


总结


Grzybowski教授团队利用Allchemy程序中专家编码的“正向”反应规则,可以得到从“废物”到重要药物和农用化学品的合成路线。而且,通过对预测的路线进行排序可以得到绿色环保且高效的合成路线,且通过实验验证了程序的实用性。他们认为如果Allchemy会在化工领域中得到应用和共享,将会产生深远影响。如某些公司输入他们打算处理的工业废料、另外一些公司输入想合成的产品,Allchemy可以很好的找到连接二者之间的合成路线。


讨论与简评


Grzybowski教授团队在本文中所有的分析都是基于Allchemy收集的约10,000个专家编码的“正向”反应规则,通过不断迭代利用规则得到庞大的反应网络,从中挑选出有价值的路线。事实上,笔者认为这个策略和该课题组此前发表的一篇Science 文章类似(Science2020, DOI: 10.1126/science.aaw1955),该文通过遍历规则得到从H2O、N2、HCN、NH3、CH4H2S到常见的生命体内的有机成分如氨基酸的合成路线。换句话说,也就是把类似策略从前生物化学(prebiotic chemistry)领域换到了化学废弃物再利用领域。从这个角度看,这篇Science 与其说思路上有创新,倒不如说是研究者们找到了一个很好的问题。


Grzybowski教授团队另外一个代表性程序Chematica是基于专家编码的“逆向”反应规则,此前已能成功预测天然产物的合成路线。按照笔者的理解,“逆向”反应规则和“正向”反应规则区别并不大,但能同时玩出这么多花样,足见该课题组的功力。

Nature2022604, 668–676, DOI: 10.1038/s41586-022-04503-9

发布评论 0条评论)

您需要 登录账户 后才能发表评论

还木有评论哦,快来抢沙发吧~