在hit发现中最大限度地整合虚拟筛选和实验筛选

2022年6月14日，来自匈牙利布达佩斯自然科学研究中心药物化学研究组的György M Keserű等人在Expert Opinion on Drug Discovery杂志发表文章Maximizing the integration of virtual and experimental screening in hit discovery，在回顾了实验筛选和虚拟筛选的最新趋势后，作者讨论了并行、集中、顺序和迭代筛选等不同的整合策略，并用一些实际案例说明。

专家意见

实验筛选和虚拟筛选是互补的方法，应该在发现hit的环境中进行整合。虚拟筛选可以获得极其庞大的、合成上可行的化学空间，可以在GPU集群或云架构上有效搜索。实验筛选通过定量的HTS应用提供可靠的数据集，而DNA编码库（DEL）扩大了这些技术所覆盖的化学空间。这些发展，以及人工智能方法的使用，提供了有效整合的新选择。

文章亮点

大型的可合成的化合物虚拟数据库涵盖了可用于虚拟筛选的化学空间的较大部分

DNA编码库（DELs）代表了实验筛选的化学空间的更好覆盖，并为虚拟筛选提供了大型训练数据集

定量高通量筛选产生了更高质量的数据，可用于虚拟筛选方案的迭代改进

GPU集群和云架构，加上并行化的软件应用和人工智能技术，为虚拟筛选提供更高的性能

实验和虚拟筛选的迭代整合使这些互补的方法发挥了最大的效益

1. 简介

Lead的产生是临床前药物分子发现过程的核心。

最近对临床候选药物的分析显示，43%的小分子候选药物来现有的化合物（以前合成和表征过的化合物，但不一定是药物）。尽管这种方法会加快发现项目的速度，并且很适合识别fast followers，但有限的操作自由度会使在知识产权空间中的导航变得困难和有风险。

事实上，另外57%的lead来源于筛选方法，包括高通量筛选（HTS，29%）、虚拟筛选（VS，14%）、重点筛选（8%）、片段筛选（5%）和DNA编码库的筛选（1%）。这些数字表明，除了实验性筛选技术外，虚拟筛选可以为发现hit和lead做出重大贡献。作为继HTS之后的第二种方法，VS方法具有相同的靶点和目标，因此不应该被视为竞争性的，而是与实验性筛选高度互补的。早期的药物发现项目可以从它们的整合中获益。重点筛选是药物lead的第三大筛选贡献者，这更说明了有效整合的必要性。

有多种选择来整合这些技术。按照整合程度的顺序，这些技术包括并行筛选、重点筛选、顺序筛选和迭代筛选。

本综述将集中介绍快速变化的VS和HTS的情况，并用最近的案例研究来说明它们在当今人工智能主导的应用中的协同作用。

2. 虚拟筛选

在计算能力迅速提高的同时，虚拟筛选最初是作为高通量筛选的一种廉价替代方法出现的，它释放了比实际可用的更广泛的（虚拟）化学空间。

传统上，根据在筛选过程中是否利用治疗性（蛋白质）靶点的结构，VS方法被分为基于配体和基于（蛋白质）结构的方法。VS方法可以组合成复杂的、分步的或并行的筛选工作流程。

使用分子描述符可以最有效地实现对物理上可用或合成的化合物数据库的大规模筛选。分子描述符是对化合物的各种特征/特性进行编码的数值，从分子量或亲油性（通常用logP表示，其中P是辛醇-水分配系数）等核心物理化学特性到Randic指数等更复杂的拓扑描述符。即使对于大型数据库，它们也可以有效地计算出来，因此，它们是定义筛选标准的理想选择，可以在计算成本较高的筛选步骤之前减少数据集的大小。

自从Lipinski等人提出著名的”rule of five"以来，许多基于描述符的筛选规则已经被实施，以产生以分子大小为重点的配体集（主要是类药物、类lead和片段过滤器，对应于早期药物发现的各个阶段），一些突出的例子收集在表1。

表1. 一些最著名的虚拟筛选/库设计的过滤规则

在过去的10年中，推动VS方法学发展的动力是有可能进入越来越大的化学空间。虽然可能的”类药”分子（分子量≤500）的化学空间估计在10⁶⁰个化合物左右，但”传统”方法使人们能够在大药厂的HTS中获得10⁵-10⁶个化合物，在虚拟筛选实际可用的库存化合物时获得10⁶-10⁷个化合物。研究界（化合物供应商、大药厂以及学术团体）已经意识到，通过将现有的化学构件与强大的化学反应相结合，系统地生成虚拟化合物数据库，有可能开发出10⁸-10¹⁰个化合物的化学空间。这种容易合成的化合物数据库包括供应商数据库，如Enamine的REAL（容易获得的）数据库和aaggregators，如Mcule的ULTIMATE，或流行的ZINC数据库的最新版本。

这种方法在大型制药企业中得到了进一步的发展，从辉瑞公司生成的反应驱动的化学空间开始，最近的专有虚拟库达到了10²⁰个化合物。值得注意的是，在不考虑合成可及性的情况下，基于纯粹的规则，甚至更大的化学空间也是可以想象的：Reymond小组生成的数据库（GDB-17）的最新迭代包含了1660亿（1.66*10¹¹）个虚拟化合物，上限为17个重原子。图1总结了可用于虚拟筛选的化学空间的一般层次结构。

图1. 可用于VS的化学空间的一般层次结构

与此同时，计算能力也在稳步提高：高性能计算（HPC）基础设施现在可以从商业供应商以及通过资助机构广泛获得。为了跟上越来越大的虚拟筛选的沉重工作负荷，流行的对接软件Autodock 4被扩展到GPU基础设施，与传统的CPU版本相比，提供了多个数量级的速度提升。事实上，最近的一个应用展示了使用Autodock-GPU在一天内对接10亿个化合物的可能性，在HPC基础设施上。最近还发布了基于DOCK软件和ZINC数据库的大规模对接指南。对于流行的形状相似性筛选软件ROCS（Rapid Overlay of Chemical Structures）的基于GPU的版本FastROCS，也观察到了类似的速度提升，而且还报道了用于药效团筛选的高效计算算法，甚至还与ZINC数据库进行了整合。这些进展使我们有可能筛选出1亿个甚至更多的化合物库："超大型虚拟筛选”这一术语是为了将这些努力与前几代的VS方法区分开来。

Derek Lowe 最近发表的一篇评论文章很好地说明了这一领域的总体进展是在不断增长的计算需求和新的、更有效的算法思想之间的微妙平衡。最近的开源软件VirtualFlow为超大型的虚拟筛选提供了一个灵活的平台，支持最流行的文件格式和多种对接算法。Murugan等人最近的一篇评论对适合高性能计算的并行对接软件进行了总结--同时介绍了不同的软件并行化方案，并展望了虚拟筛选中量子计算的未来。据报道，超大型筛选的成功应用产生了AmpCβ-内酰胺酶（AmpC）和D4多巴胺受体的高亲和力结合剂，而基于合成子的V-SYNTHES方法将库的生成和筛选步骤联系起来，实现了110亿个筛选化合物的规模，产生了约30%的hit和针对大麻素受体和ROCK1激酶的纳摩尔hit。对ZINC15数据库的类lead子集（2.35亿个化合物）进行筛选后，发现了SARS-CoV-2主要蛋白酶的强效、非共价抑制剂。

值得注意的是，基于配体和结构的方法（如对接、形状筛选和药理筛选）可以灵活地结合起来，形成分步或并行的虚拟筛选工作流程，尽管据我们所知，这在超大规模的筛选中还没有普及。我们应该注意到，在基于对接的虚拟筛选工作流程中，共识筛选策略也可以在考虑多个评分函数的层面上实现。

虚拟筛选以及一般研究的另一个强劲趋势是对人工智能和机器学习方法的适应。在基于结构的虚拟筛选中，最近推出的AlphaFold是一个重要的游戏规则改变者，它通过解决蛋白质折叠问题来提供准确的蛋白质结构预测。同时，机器学习已经深深扎根于有关一般兴趣目标的分类/回归问题，如ADMET目标，深度学习方法在基于配体和结构的虚拟筛选中也越来越受欢迎。

人工智能方法在虚拟筛选中的另一个流行用法是通过训练深度学习模型来预测对接分数，从而绕过数据库中大部分配体（"低分”配体）的更苛刻的对接步骤，以减少对接的计算需求。最近Cherkasov实验室贡献了一个突出的平台，称为Deep Docking。通过对400多亿个化合物进行虚拟筛选，发现了新的SARS-CoV-2主要蛋白酶抑制剂，证明了Deep Docking的工作流程，今年早些时候在Nature Protocols上发表了对这种方法的指导性介绍。另一个最近的软件是MolAICal，它通过不同的概念实现了深度学习工具来解决三维药物设计问题：在PDBbind数据库的实验数据上训练深度学习模型，并前瞻性地应用于设计结合口袋内的三维配体结构，从而实现了人工智能增强的从头设计解决方案。

一般来说，机器学习模型的一个经常被批评的方面是它们缺乏可解释性。虽然”黑箱”模型在预测新的候选药物方面可能是成功的，但它们在可以提供支持进一步决策的理由方面几乎没有提供。最主流的机器学习概念的其他局限性是对其训练输入的敏感性（即通常它们可以可靠地预测一个特定的生物测定，但不能预测在不同测定条件下确定的同一终点的”混合”结果），以及在同一模型中缺乏多目标预测。为了处理这些限制，近年来的一个新趋势是应用扰动理论，结合机器学习（PTML）。在这里，不同的检测条件和目标可以通过定义适当的扰动理论算子被纳入模型。该方法由González-Díaz和Speck-Planche小组最突出地展示，在多靶点疾病条件（如阿尔茨海默病、肿瘤学和多菌种抗结核药物），甚至更复杂的系统（如代谢反应网络）中有广泛的应用。

总之，我们推测人工智能方法将在不久的将来获得更大的发展，与VS数据集的规模不断扩大同步。

3. 实验筛选

几十年来，高通量筛选技术的发展是由小型化驱动的。在保持精确性的同时，获得更小的样本量，就有可能以更好的成本体积比进行更大的筛选。事实上，近十年来，高通量筛选技术在这方面已经成熟，声学液滴处理仪器将以前的高消耗技术（如蛋白质晶体学）的样本量推低到纳升级。

有点反常的是，在过去的几十年里，每个HTS项目筛选的化合物数量似乎在减少，这可能是由于更智能的库设计和更高质量的HTS数据的进步。

随着nL样品量的获得，过去十年在提高HTS数据质量方面取得了重大进展。一个突出的趋势是定量HTS（qHTS）方法的发展，通过将浓度依赖性测量作为主要HTS活动的一部分来提高数据可靠性。定量HTS已经被应用于主要的公共筛选，如Tox21计划，数据分析/拟合方法已经被微调，以有力地处理qHTS结果的质量控制。同时，HTS筛选的重点已经从机制（单靶点）转向表型筛选。表型筛选通常采用以细胞为基础的终点，以最大限度地提高所得信息的生物学相关性，因此，它们在虚拟筛选中没有真正的替代品。虽然由此产生的hit的作用机制显然不太清楚，但表型药物发现的成功已被一流的药物所证明，例如针对脊髓性肌萎缩症、囊性纤维化和丙型肝炎的新型治疗方案。

表型筛选已经在针对传染病的药物发现中找到了成功的应用，包括SARS-CoV-2。然而，表型HTS在hit验证和靶点解构方面仍有相当大的挑战，这可能会使制药公司不愿意实施这种方法。此外，还出现了一些重大的范式转变，包括类器官的发展：干细胞衍生的三维细胞培养系统，重现了人类器官的结构和生理学。同时，高通量筛选技术应用自动化显微镜与定量图像分析，对细胞表型进行高通量的定量分析。

HTS也受益于创新的新技术，如DNA编码库（DEL）的应用。DEL技术最早在1992年被提出，在过去的十年里，随着必要的技术进步，已经达到了成熟的程度。

为完善DEL技术做出了巨大的努力，包括：开发与DNA兼容的（'on-DNA'）化学反应，以及数据分析平台。

图2. 采用DEL库的一般药物发现工作流程

最后，HTS也不能免于近年来的主要科学趋势，即人工智能（AI）的扩展。在高通量筛选中，人工智能驱动的技术的主要切入点是设计更智能的筛选。

机器学习方法可以用来进行迭代筛选，而不是筛选全部可用的化合物，即测试较小批量的化合物，并将结果输入机器学习算法，该算法会推荐所发现的化合物的结构或生物类似物，以便在下一批次进行测试。通过迭代重复这些步骤，在短短的三到六次迭代中，通过筛选不到全部化合物堆的一半就可以检索到大部分的活性化合物。在诺华公司报告的另一个例子中，在≤10次迭代中筛选出约1%的全部化合物，保留了属于前0.5%最活跃化合物的不同化合物。

4. 虚拟和实验筛选的整合

有各种策略可以将虚拟筛选和实验筛选的优势结合起来，尽管并不是所有的策略都被运用到同样的程度。在本节中，我们旨在通过对最近发表的hit发现项目的选定案例研究来展示这些可能性，这些项目大多针对突出的肿瘤靶点。

4.1. 并行筛选

并行筛选是指在同一个化学文库中应用更多的筛选方法，彼此独立。由于虚拟筛选的主要目标通常是使实验筛选的能力和精力合理化，所以采用虚拟和实验的并行设置不能算是一个典型的概念。然而，偶尔也有一些例子，主要是为了对这些方法的优势和互补性进行方法学上的比较。

其中一个例子是发现CDP-ME激酶（IspE）的新抑制剂，这是一个抗菌靶点。在这里，作者利用他们内部的虚拟库中的400多万个化合物进行逐步的虚拟筛选级联，最终购买并测试了14个化合物。同时，他们还提交了一个由6000多个化合物组成的重点激酶特异性库进行实验性筛选。此外，HTS库也被提交到虚拟筛选。最终，除了确定几个新的IspE抑制剂外，作者还专门对这两种方法进行了详细的讨论，包括按化学结构对检索到的hit进行比较，以及它们在两个hit列表中的排名。

与上述情况相比，正交虚拟筛选方法的并行应用更为频繁。在这里，目的通常是为了检索出更有力的结果，例如，通过两个或多个不同的虚拟筛选概念的共识，如配体对接、药理筛选或形状筛选。在我们最近的工作中，我们应用上述三种方法从内部化合物库中发现了MELK激酶的新抑制剂。MELK是一个在细胞过程中具有多种功能的肿瘤靶点，据观察，它在许多人类癌症中过量表达。我们的努力导致了几个新的MELK抑制剂的发现，其中六个主要hit共享相同的1,2,4-三唑[1,5-b]异喹啉骨架。对这个系列的结构-活性关系（SAR）的进一步探索，最终确定了一个亚微摩尔的目标。在9个主要hit中，有5个是由所有三个建模概念的共识产生的，而其中4个是由两个筛选概念的不同组合提名的。虽然共识筛选的应用对于小库来说成本不高，但对于超大型筛选来说，它需要更全面的考虑。尽管如此，随着对GPU工作站和HPC基础设施的访问，这一点现在是可行的。

除了多种筛选概念和多种对接程序外，还可以在多种评分函数的层面上实现并行虚拟筛选（共识评分），Liao等人的工作就是一个例子，该工作产生了first-in-class STAT5抑制剂IST5-002。转录信号传导体和激活体（STATs）是由七个转录因子组成的家族，在细胞内信号传导中起着关键作用，最近被认为是白血病等不同适应症中很有前途的肿瘤靶点。到目前为止，只有少数几个STAT5B抑制剂的描述。在上述例子中，作者使用了FlexX对接软件的多种评分功能（分子力学能量、表面积等），通过共识选择了30个虚拟hit，其测试最终得到了微摩尔抑制剂IST5-002。

4.2. 重点筛选

在重点筛选中，通过从物理（或商业）可用的化合物库中编制重点化合物库，应用计算方法来减少实验测试的需求。这包括各种可能性，主要是通过基于配体（偶尔是基于蛋白质）的筛选方法，或其组合。

使用重点库的一个典型领域是激酶药物发现。

从结构/拓扑学的角度来看，ATP竞争性结合物具有良好的特征，因此有几种方法可用于编制以激酶为重点的分子库。这些方法包括基于描述符的方法，它依赖于多标准的优化规则或类似激酶的描述符空间的统计特征，以及基于小分子激酶抑制剂和激酶保守铰链区之间的特征分子识别模式的片段方法。这一概念被成功地应用于针对不同激酶靶点的虚拟筛选活动，如Janus激酶（JAK）或肌醇磷酸激酶，而且这种库由几个化合物供应商提供商业服务。

在传统意义上，重点库的目的是提供针对特定目标或目标类别的更高hit率，如上所述。然而，同样的方法可以定制并应用于反面的概念，即目标是提供一种”通用”的化合物库，通过对数量非常有限的化合物进行实验性筛选，最大限度地提高找到针对任何蛋白质目标的hit的机会。显然，这种想法对于设计片段库是最可行的，因为片段化学空间的大小更容易管理。

4.3. 顺序筛选

顺序筛选的目的是平衡计算方法的成本与准确性，或实验筛选方法的成本与相关性。顺序工作流程对逐渐变小的化合物池采用逐渐昂贵和更精确的步骤，在每一步中消除很大一部分的筛选对象，并将一部分最好的化合物推进到下一步。

我们最近关于SETD2抑制剂的工作很好地说明了这个概念。

图3. 发现新的SETD2抑制剂的分步筛选工作流程

其他工作采用不同筛选步骤的分步方案，例如，Castillo-González等人在发现G-四联体（G4）稳定剂配体时，将严格制定的QSAR模型作为早期筛选步骤，报告了23.5%的优秀hit率。

在实验筛选中，一般采用顺序工作流程，以尽量减少成本。在筛选较大的文库时，习惯上是用一种浓度的候选化合物（一式两份或三份）进行初筛，然后通过测量其剂量反应曲线或将其推广到更高层次的、主要是基于细胞的生化实验中，将初选的化合物推进到更彻底的表征。这被认为是一种默认的做法，在此不再进一步说明。

4.4. 迭代和综合筛选

迭代筛选遵循与顺序筛选有相同的理念，关键的区别是在迭代筛选中，更高级的步骤的结果被反馈到较早的步骤中，以提高整体性能，并挑选出可能在先前迭代中被遗漏的候选者。在虚拟筛选方面，一个典型的例子是上面提到的深度对接工作流程，"真正的”对接分数被反馈到神经网络，以提高预测能力，从而提高深度学习模型的整体性能。然后，改进后的模型被用来提名另一个迭代的化合物进入对接步骤。

在虚拟筛选和实验筛选的相互作用中，在第一轮虚拟筛选中选出的化合物所产生的实验结果可以用来反复完善VS方法，并在随后的迭代中推广新的hit化合物。VS方法可能与早期迭代中的方法相同，也可能不同。一些作者交替使用”迭代”和”整合”这两个词，而另一些作者则对两者进行了区分，指出在后者中，计算和实验方法在hit检索过程中被更紧密地整合在一起。集成工作流程的一个例子是用现有的实验数据训练主要的虚拟筛选方法（如基于二维相似性的方法或机器学习模型），并将新产生的实验结果插入到以后的迭代中。事实上，Miyao和Funatsu最近发表的一篇方法学论文对用于迭代筛选的现有机器学习方法进行了详细的、回顾性的比较。

在默克公司的一篇论文中，作者对综合虚拟筛选策略进行了全面的概述，并在三个案例研究中进行了说明，对应于目标结构和已知活性配体的不同情况。他们的第三个案例研究详细介绍了发现一个新的、未公开的免疫肿瘤学靶点的工具化合物，在研究时没有已知的调节剂或结构信息。

简而言之，前一次迭代的信息被输入三种互补的方法（二维QSAR、三维形状筛选和活性指纹），以检索出相似的和结构上不同的额外hit。最后，该研究在6个月的时间内为一个先前未被充分探索的靶点找到了19个不同的hit。

5. 结论

虚拟和实验筛选都是早期药物发现工具箱中不可缺少的方法。我们回顾了目前虚拟和实验筛选的最新进展，主要集中在过去十年的进展上。其中一个主要部分专门说明了整合这些方法的主要选择，以提高发现lead的成功率和成本效益。

值得注意的是，我们发现该领域在过去十年中经历了重大的范式转变。可利用的化学空间的迅速扩大，需要新的算法概念和更智能的筛选方法的整合，以发现和利用新的化学结构。我们设想，随着时间的推移，现有的方法学工具将得到更紧密的整合。

参考资料

Bajusz D, Keserű GM. Maximizing the integration of virtual and experimental screening in hit discovery. Expert Opin Drug Discov. 2022 Jun;17(6):629-640. doi: 10.1080/17460441.2022.2085685. Epub 2022 Jun 14.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。