化整为零”，110亿虚拟分子库筛选速度提高5000倍

chem化学亮点2022-01-114.3W

从分子库中虚拟筛选出潜在的苗头化合物，是早期药物发现常用的手段，而分子库的大小和多样性对于虚拟筛选的命中率非常关键。目前普遍认为化学空间存在超过10²⁰-10⁶³个类药分子，现存分子库的规模不过冰山一角，分子数和分子骨架多样性仍急需提高。扩大分子库量级的有效途径之一就是构建虚拟分子库，Enamine的REAL（readily available for synthesis）是目前最广泛应用的虚拟库之一。该虚拟库利用模块化并行合成（优化过的反应类型）和分子砌块，目前已经扩展到超过210亿个分子。并且该虚拟库的化合物合成速度快（少于4-6周）、可靠性高（>80%的成功率），价格还比较实惠。然而，随着虚拟库中分子数量的暴增，对常规的基于对接的虚拟筛选算法来说，计算时间和成本就成了瓶颈。例如，以10秒/分子的速度对接100亿个化合物，在单个CPU核上需要跑3000年以上，如果上云计算，需要的花费可能超过80万美元！

一方面要跟上虚拟分子库的数量爆发式增长，一方面还要在保持对接精度且不丢失打分最好化合物的前提下大幅减少计算时间和成本，业界对虚拟分子库新一代快速筛选方法翘首以盼。近日，美国南加州大学Vsevolod Katritch、东北大学Alexandros Makriyannis以及北卡罗来纳大学教堂山分校Bryan L. Roth等人合作提出了一种模块化基于合成子的高效筛选方法V-SYNTHES（Virtual SYNThon Hierarchical Enumeration Screening），在不影响对接精度下的前提下大幅减少虚拟筛选所需的计算时间和成本。V-SYNTHES的成功关键在于“化整为零”——并非完整分子一个一个地对接打分，而是将其拆成骨架和若干合成子，找到能匹配蛋白质靶点口袋某个部分的合成子之后，再找能匹配靶点口袋另一个部分的另一个合成子，如此循环就可以筛到符合要求的完整分子。他们以大麻素受体拮抗剂为目标验证了V-SYNTHES方法的有效性。通过迭代对接不到200万个化合物，V-SYNTHES完成110亿规模Enamine REAL Space库的筛选速度要比常规的标准对接算法快5000倍以上。经过实验验证，V-SYNTHES预测的新型大麻素拮抗剂的命中率高达33%，其中14个分子活性达到sub-μM水平。该工作近期发表在Nature 上。

化整为零”，110亿虚拟分子库筛选速度提高5000倍第1张

V-SYNTHES原理示意图。图片来源：USC^[1]

V-SYNTHES的工作流程

V-SYNTHES的工作流程如下图所示：（1）生成可代表所有反应中所有可能的骨架-合成子组合的片段库，称为最小枚举库（MEL，minimal enumeration library）。由于合成子（即R基）只有一个是完全枚举的，所以MEL库的大小与合成子的数量级一致，只有大约60万个MEL分子。（2）利用柔性对接将MEL分子对接到目标受体上。选用对接分数排名靠前的几千个MEL分子进行下一步枚举。同时为了结果更加多样化，限制了某个反应的贡献不能超过20%。（3）遍历另外一个合成子，得到完整的化合物，这一步产生的化合物子集大概包括一百万个分子。（4）再次与目标受体对接，根据对接分数、类药性、化学多样性等进行筛选。当然，以上工作流程示例针对的是两个合成子，如果分子包含更多合成子，则重复第3步与第4步直到获得完整化合物即可。排名靠前的化合物进行进一步的PAINS、理化性质、类药性、新颖性和化学多样性的筛选，最终选出50-100个化合物进行合成和实验测试。

化整为零”，110亿虚拟分子库筛选速度提高5000倍第2张

图1. 四步算法的概述（左）和每步的示例（右）。第一步中的星号表示合成子的连接点；箭头显示了最小合成子与真正合成子的可能配对。图片来源：Nature

同时，为了更有效的占据蛋白口袋，作者还写了个脚本自动化检查从MEL分子的R基团到口袋中虚原子的距离。如果距离小于4 Å，即使该分子有较高的对接分数也会被剔除。

用V-SYNTHES筛选大麻素受体拮抗剂

大麻素（cannabinoid，CB）受体是炎症、神经退行性疾病和癌症药物发现的关键靶点，作者选用大麻素受体2（CB₂）与拮抗剂AM10257的复合物结构（PDB: 5ZTY）作为模板进行对接。为了和基准虚拟筛选比较，作者分别从二组分和三组分的分子库中随机生成了100万个和50万个化合物进行对接评估。图2显示了V-SYNTHES与标准虚拟筛选的性能对比。结果表明，V-SYNTHES筛选出的最优化合物比标准虚拟筛选的得分分别高了7 kJ mol⁻¹（二组分库，图2a）和6.5 kJ mol⁻¹（三组分库，图2b）。为了系统地表征V-SYNTHES高分化合物的富集程度，作者引入了富集因子的概念。富集因子的定义为某个对接分数阈值处，V-SYNTHES与标准虚拟筛选命中的分子数的比值（越高表明V-SYNTHES性能越优异）。从图2c/d，可明显看出高分阈值处富集因子分别在200（二组分库）和300（三组分库）左右。

化整为零”，110亿虚拟分子库筛选速度提高5000倍第3张

图2. V-SYNTHES与标准双组分（100万个化合物）和三组分（50万个化合物）虚拟筛选在对接分数阈值处命中的分子数（a和b）和富集因子（c和d）。红色的X符号表示筛选排名靠前100个分子的阈值。图片来源：Nature

随后，作者对排名前5000的候选化合物进行标准后处理：1）剔除含PAINS和类药性低的化合物；2）剔除与CHEMBL已知CB₁/CB₂配体相似性高的化合物；3）以更高精度重新对接分子；4）分子聚类筛选出多样性分子。最后选出80个化合物，其中60个能在5周内以90%的纯度合成，21个分子具有拮抗活性（K_i值大于10 μM），命中率高达33%。此外，作者还用含1.15亿个分子的虚拟库对接，并选出97个分子合成和测试，分别有9个和5个分子对CB₁和CB₂的K_i大于10 μM，命中率约15%。

化整为零”，110亿虚拟分子库筛选速度提高5000倍第4张

图3. V-SYNTHES预测出的排名前5的CB₂活性分子及化合物与受体的结合模式。图片来源：Nature

为了进一步优化分子，作者对3个活性最好的分子根据相似性搜索找到920种化合物。在同CB₂结构模型对接的基础上，选择其中121个类似物进行合成，其中104个化合物在5周内合成完成。测试发现有60个类似物的效力大于10 μM，23个类似物的效力达到sub-μM水平，5个类似物有超过50倍的CB₂/CB₁选择性，活性最高的达到0.9 nM，且对超过300个GPCR受体家族表现出高选择性。这表明V-SYNTHES方法和后续的分子优化能找到高活性且高选择性的CB₂先导化合物。

为了评估V-SYNTHES方法的适用性，作者还测试V-SYNTHES在ROCK1激酶上的表现。采用和大麻素受体类似的步骤，作者合成并测试了21个分子，其中6个分子的活性优于10 µM（命中率28.5%），活性最好的分子的IC₅₀为6.3 nM，K_d为7.9 nM。

本文总结

本文介绍了一种新的虚拟分子库筛选方法V-SYNTHESIS，可以对110亿虚拟库进行基于层次结构的筛选，仅需对虚拟分子库中的一小部分（<0.1%，约200万个化合物）进行对接，就能快速筛选出得分最高的化合物，将110亿虚拟分子库的筛选速度加快5000倍以上。经过实验验证，V-SYNTHES预测的新型大麻素拮抗剂的命中率为33%（14个分子达到sub-μM水平），比基于1.15亿虚拟分子库的标准虚拟筛选的成功率翻了一倍（33% vs. 15%，且后者的计算成本是V-SYNTHES的约100倍），大大提高了虚拟筛选的效率。通过合成类似物，进一步提高了分子的药效、亲和力（最高的K_i达到了0.9 nM）和CB₂/CB₁选择性（50-200倍）。

此外，V-SYNTHES也可用于发现激酶靶点ROCK1的强效拮抗剂（IC₅₀ = 6.3 nM），命中率为28.5%，这些数据进一步支持V-SYNTHES在不同种类的蛋白靶点中发现先导化合物的应用。该方法的计算成本仅随合成子的数量线性增加，很容易扩展到快速增长的组合库，并且可能适用于任何对接算法。

Nature, 2021, DOI: 10.1038/s41586-021-04220-9

本文地址：https://www.chemrss.com/1296.html