Drug Discov Today｜人工智能增强的药物设计和开发：迈向计算型精准医学

2021年9月20日，来自法国制药公司施维雅(Servier)的Philippe Moingeon等人在Drug Discovery Today发表文章，对人工智能在药物设计和开发方面的四个主要应用进行了阐述。

以下是全文内容。

亮点

人工智能允许整合大量的多模式数据来建立预测模型。

对复杂的异质性疾病进行建模可以确定治疗靶点。

人工智能有助于设计、选择和重新利用与靶点相互作用的药物。

人工智能推动了计算型精准医学的出现。

摘要

人工智能（AI）依赖于各种技术的融合，并与生命科学技术进一步协同，通过预测模型支持决策的形式，获取大量的多种模式数据的价值。人工智能和机器学习（ML）通过提高我们对疾病异质性的理解，识别失调的分子途径和治疗靶点，设计和优化候选药物，以及评估生物信息相关的临床疗效，来加强药物设计和开发。通过提供前所未有的关于病人特性和候选药物特性的知识水平，人工智能正在促进计算精准医学的出现，允许根据个体病人在生理学、疾病特征和环境风险方面的特殊性，来设计治疗或预防措施。

前言

药物开发是一个复杂的过程，目前平均需要12年的开发时间，需要26亿美元的投入。并且监管要求严格，需要证明药物的有效性和安全性。在临床研究中的评估费用昂贵且失败率高，估计只有6.2%的发现阶段的药物最终能够提供给病人。在这种情况下，基于人工智能的预测模型正在成为一种革命性的解决方案，以提高药物设计和开发的效率和速度，特别是通过优化治疗靶点和候选药物的选择。人工智能允许整合大量的多种模式数据，包括结构化和非结构化数据，来建立问题的概率和动态模型。

人工智能驱动的预测模型可以通过使用特定的数据集来生成，为整个药物发现、开发和注册步骤中的一系列决策提供信息（图1）。这些步骤包括选择正确的治疗靶点、最佳候选药物、适当的剂量和给药方案，以及将适当的患者纳入临床研究。通过提供一种手段来获取与诊断、患者特征、候选药物性质和治疗反应预测有关的数据价值，人工智能实现了一种更加个性化的方法，被称为 "精准医疗"，即提出更适合个别患者特点的治疗。

图1.药物发现、开发和注册阶段需要做出的关键决定以及预测模型，和支持这些模型的数据集的例子。

在此基础上，我们在此讨论人工智能在支持药物设计和开发方面的四个主要应用。(i) 根据病人的分子分析数据生成疾病模型，代表疾病的异质性；(ii) 识别失调的分子通路和预测候选治疗靶点；(iii) 设计、合成和优化与这些靶点相互作用的候选药物；以及(iv) 通过使用虚拟病人或真实世界证据数据评估临床疗效。

捕捉生物医学大数据的价值

新一代DNA、RNA和外显子组测序、多组学分子分析、高分辨率医学成像和电子捕获技术最近的快速发展，使我们有可能在一个前所未有的水平上，描述个人在生理学、病理生理学以及环境风险暴露方面的特性。癌症基因组图谱（TCGA）、阿尔茨海默病神经影像计划（ADNI）、骨关节炎计划（OAI）和英国生物银行（UK Biobank）都是这种日益增长的趋势的例子，即整合来自大型患者群体的大数据以支持药物开发。在不久的将来，这种全面的分子信息将适用于多种疾病的数以百万计的患者，另外还有数百个结构化生物医学数据库中汇编的指数级数据和知识可用，如欧洲生物信息研究所（EBI）或美国国家生物技术信息中心（NCBI）管理的数据库。

当试图捕捉这些不断增加的数据的价值时，主要的挑战有：如何选择标准化、机器可读的数据，并适当的访问；数据的复杂性、异质性和稀疏性。在数据生命周期管理中，整合由多种技术产生的海量和多模式数据，并保证一致性和可靠性，仍然是一个重大的困难（图2）。获得准确的、经过整理的大量数据也是提高ML重复性的关键。

解决这些问题需要建立适应生命科学特性的计算硬件架构，这些架构通常被部署到云端。为此，出现了许多倡议，如临床数据交换标准联盟（CDISC）或FAIR指导原则，以实现数据的可查找性、可访问性、互操作性、可重用性和交换。此外，欧洲通用数据保护条例（GDPR）和美国经济和临床健康信息技术法案在访问、存储、共享机密和敏感健康数据方面的监管要求，要求实施明确和可操作的数据治理战略（图2）。

图2. 生物医学数据的生命周期管理。该图表示从数据产生到结果共享的一般生物医学数据生命周期，强调在数据治理方面需要更多的标准化和自动化。

在这种情况下，制药公司或学术实验室之间的竞争前合作联盟，如MELLODDY或Drug Target Commons，分别构成了创新的联合知识倡议，为开发ML算法收集、策划和分享具有适当质量的大量数据。MELLODY联盟将几家药物公司聚集在一起，分享他们的化学库，以训练多任务预测算法，随后由每个合作伙伴应用于支持自己的药物发现计划。同时，多个众包挑战，如Kaggle、Dream和PrecisionFDA，给出了参考数据集，为解决复杂的生物医学问题建立了新算法的基准和测试标准。

人工智能和疾病建模

生物技术和人工智能的融合为创建疾病模型提供了机会，以帮助在定义明确的患者亚群中确定治疗方法。这类模型是在使用多组学技术对患者与健康对照组进行广泛的分子分析后产生的，将疾病表示为基于潜在病理生理机制定义的内型(endotypes)。这些数据通常是在公私合营的大型患者群随访期间产生的，通过使用无监督和有监督的学习方法的组合对患者进行分层。

这种分类的基本原理是，它能更好地支持精准医疗的方法，依靠针对明确的患者亚群的疗法，取代以前仅基于临床表型（phenotypes）的分类。为此，从数千名特定疾病患者的血液和/或目标器官中获得的分子分析数据，与疾病进展、严重程度或治疗反应方面的详细临床信息相结合，可将患者分为反映疾病异质性的同质亚群。虽然传统的生物信息学不可能整合这种大规模和多模式的数据，但现在可以通过使用人工智能对疾病进行全面建模。

要做到这一点，主要的计算挑战仍然在于是否有能力：(i) 整合来自多组学技术的数据，同时减少其维度的多样性；(ii) 在单细胞水平上破译疾病机制；(iii) 对疾病的动态演变进行建模；以及(iv) 通过共识和再抽样方法巩固研究结果，支持其有效性和重复性。

在对每个集群进行基因集富集分析后，可以根据分子通路的失调进一步确定患者亚群的特征。特定的数据库（如Ingenuity Pathway Analysis和STRING）被用来在既定的功能分子通路中重新组合患者样本中上调或下调(与健康对照组相比)的基因或蛋白质。鉴于疾病的定义是参照常态下的分子术语，疾病的特征需要在与健康状态相关的分子多态性观察之外加以确定。

总的来说，疾病模型可以提供关于疾病的自然史以及在系统和器官特定水平上所涉及的病理生理机制之间的关系的信息。此外，它还揭示了患者的异质性以及分子特征，这些特征可用于将患者聚集在同质的群体中，以设想一种精确的医学方法，同时考虑到集群内患者的特殊性。重要的是，它还为进一步在计算技术中确定有治疗意义的靶点提供线索。

治疗靶点的识别、优先排序和验证

目前研究人员正在开发计算方法，以确定与疾病相关的基因，或预测参与疾病因果关系的蛋白质，从而寻找潜在的可操作的治疗靶点。第一步，是在相互连接的基因或蛋白质的大规模网络中，体现特定疾病中失调的分子途径。这些网络是由蛋白质-蛋白质相互作用（PPI）建立的，或通过推理技术重建的，如相关或贝叶斯网络。这种表示方法可以划定与疾病相关的子网络模块，作为进一步计算分析其内在拓扑结构的基础，以确定被预测为 "因果"的节点（包括，例如，主调节器、枢纽和驱动突变）。特别是，网络传播算法通常用于放大那些很少或没有疾病相关直接证据的节点的信号。如上所述，主要的计算挑战涉及从不同层次获得的多层网络的整合，以及大规模动态信息的表示。

除了生物相关性外，还应考虑其他方面，以确定考量疾病靶点的优先次序，如" Open Targets initiative"倡议的那样。(i) 可药性（即能够用小型合成药物或生物药物或任何其他治疗方式来调节靶点的功能的可能性）；(ii) 干扰该靶点时的潜在安全影响；(iii) 利用自然语言处理（NLP）技术从专利和文献中挖掘记录的创新性；以及(iv) 药物开发的可行性。确认靶点的可药性大大受益于三维结构建模的进展，包括最近DeepMind的AlphaFold算法，就是基于主要氨基酸序列，改进蛋白质结构预测。

使用网络计算方法对疾病的因果关系进行推断而确定的候选靶点，需要在湿式实验室实验产生的经验证据基础上进行验证。这一验证（例如，CRISPR-Cas9基因缺失或siRNA基因沉默）步骤，包括对来自患者的细胞或组织的靶点表达（相对于健康对照）表型评估，或在动物模型中进行功能检测，在使用计算预测模型时可以大大简化。因此，与药物发现相关的成本和时间都减少了，同时加强了在进入临床开发前选择候选靶点的理由。

人工智能增强的药物设计、选择和优化

基于网络的接近性分析可以预测药物与靶点的相互作用，这可以应用于现有药物在新适应症中的再利用。例如，deepDTnet算法是基于网络的深度学习方法，用于识别已知药物的新分子靶点。DeepDTnet嵌入了15种化学、基因组、表型和细胞网络，以产生生物学和药理学上的相关特征。研究人员在将人工智能应用于虚拟药物设计或识别具有理想特性的新化合物方面，也有相当大的兴趣。

计算化学已被广泛用于定量结构-活性关系（QSAR），目的是预测可能包括数百万分子的化学空间中的活性。QSAR领域在过去十年中受益于深度学习对神经网络的综合应用，有了更高的计算能力和更好的算法来解决过拟合和梯度问题。ML方法现在被应用于训练基于配体的虚拟筛选的神经网络，以识别和优化与候选治疗目标相互作用的药物，预测其吸收、分布、代谢、排泄和毒性（ADMET）特征，或重新利用现有分子。

有趣的是，深度学习可以通过开发包含一个以上活动的模型来进行多任务预测，如生物活性和ADME特性。而多个活动的预测可以并行训练，因为它们共享相同的输入和隐藏层，每个活动都与一个特定的输出节点有关（图3a）。在Kaggle竞赛中，评估各种ML方法以提高QSAR方法的预测性能，一个多任务深度网络赢得了比赛，比基线提高了15%。除了提高预测的准确性，与经典的ML方法（如Random Forrest或Support Vector Machine）相比，基于深度学习的多任务预测进一步提高了药物发现能力。

深度学习也允许识别新的分子描述符，而不是仅仅依靠现成的和专家得出的化学特征。以前的ML方法使用专家编制的分子描述符来训练算法，而深度学习则使用这种无需任何人工干预的图像处理形式，即图卷积产生特征。为了更好地预测分子活性，多任务深度学习也可以应用于涉及分子本身的高通量筛选（HCS）试验期间产生的图像分析数据。这样的HCS是一个丰富的信息来源，它可以与分子描述符结合使用来预测生物活性，同时避免了对定制试验的需要。

图3. 用于分子建模和药物设计的深度学习网络的例子。(a) 多任务预测深度学习算法的示意图，左边是用于训练的化合物及其相关数据。一旦网络被训练并找到最佳的超参数，该算法就会产生它所训练的所有端点的全矩阵预测作为输出。(b) 自动编码器的示意图，左边是编码器，中间是潜在空间，右边是解码器。一旦自动编码器在数以百万计的分子上进行了训练，潜伏空间就可以被修改（通过随机或焦点变化）以产生接近输入的分子，尽管变化很小。自动编码器将一个SMILES作为输入，并产生一个SMILES作为输出。

深度学习也被应用于新分子的生成，分子是由模型设计的，而不是由化学家设计。以前人工方法是通过添加化学R基或改变原子来进化现有的分子，而深度学习可以用来训练神经网络，并根据以前已知的分子生成新的候选分子。研究人员通过调整通常应用于图像分析或语言翻译的方法，利用包含编码器和解码器网络的变异自动编码器，建立了第一个深度学习的新分子生成模型（图3b）。编码器的作用是将以字符串（如SMILES）表示的化学结构翻译成一个潜伏空间向量。然后解码器网络从潜伏空间向量翻译回SMILES，以获得精炼的化学结构。一个随机的变化可以应用于潜伏空间或与模型预测相结合，以确定一个与输入稍有不同的符合模型标准的解码分子。自动编码器和衍生工具的多种应用已经被报道，无论是否与循环神经网络（RNN）的使用相结合。

在计算化学中正在应用更多的新分子设计方法，如强化学习（RL），其中网络被逐步训练以达到特定的输出，获得最大化累积奖励。另一种方法是使用生成对抗网络（GAN），将两个在零和游戏中既竞争又合作的神经网络联系起来，从很大的数据集中进行分子特征提取。当应用于药物开发时，第一个"生成"网络产生候选分子，第二个"辨别"网络来评估。尽管通过使用新分子生成和多任务预测在药物设计方面取得了许多成功，但获得的一些模型仍然产生不易合成的分子。在这种情况下，人们开发了支持逆向合成的计算方法，作为专家衍生的规则或从化学反应数据库建立的知识系统的替代，通过使用逆向反应分解新生成的分子来设计其化学合成。深度学习最近也被应用于支持逆向合成分析，使用一个基于序列的模型，其中化学结构被描述为RNN的SMILES，反应物和产物在一个编码器解码器中被链接成一对。

走向虚拟临床研究

人工智能可用于支持评估候选药物疗效和安全性的临床试验的设计、实施和监测，以提高成功率。例如，对疾病和患者异质性的理解有助于选择试验中招募的患者。此外，NLP正被用来挖掘真实世界证据（RWE）数据或健康记录，以评估病人在临床研究中的资格。在这种方法中，自动文本挖掘被用来识别和选择精确满足研究设计中的纳入标准（如疾病严重程度，特定目标器官的参与，以及已有的疗法）的病人。人工智能还有助于通过整合大量的生物、医学影像和临床数据来记录患者的特异性，为精准医疗方法中的创新试验设计提供信息。在试验监测期间，人工智能有助于以远程方式捕捉由可穿戴传感器或设备产生的患者报告的测量和结果。它还被应用于挖掘此类数字生物标志物，提供有关症状、疼痛、认知功能、运动能力或睡眠模式的有用信息，以支持医生的诊断或治疗决定。人工智能和ML也被用来分析来自成功和失败的研究的数据，以产生能够同时预测多种和多模式临床参数演变的模型。这些分析可以提供关于预测病情发展、严重程度、对治疗的反应、甚至生存的候选生物标志物的假设。

一个让人们产生相当的大兴趣的话题，是通过虚拟试验预测候选药物的疗效。目前，病人特征的虚拟表现是以 "合成"病人的形式组合起来的。在组合安慰剂对照组以测试危及生命或罕见疾病的候选药物时，这些模型作为真实病人的替代品特别有用。这种虚拟安慰剂组的演变可以从受病情影响的真实病人在接受标准护理时获得的RWE临床数据中进行建模。

此外，为了测试实验性药物的临床疗效，基于定量系统药理学（QSP）的计算模型也在开发中，并取得了一些令人鼓舞的结果。有关疾病的QSP模型是根据血液或组织中与临床症状有关的生物过程的数据建立的。然后将获得的生物系统建模为常微分数学方程，以表示各组成部分之间的动态相互作用，并进一步纳入候选药物的一些主要特征（如对靶点的亲和力、药代动力学和生物分布），以评估后者将如何扰乱该系统。QSP不仅用于预测药物如何缓解与特定器官有关的症状，而且还用于确定潜在的生物标志物，以对病人进行分类或监测，选择剂量和给药方案以及临床终点，以用于确认性的真实世界试验。可以预见，在成功实施以ML为动力的精准医疗方面还有一个障碍，那就是难以建立因果推断，即从数据驱动的模型中预测药物暴露对临床结果的因果效应。然而，未来人工智能生成的各种疾病模型，以基因或蛋白质相互作用组的形式出现，对病理生理学的因果关系进行推断，可能会大大增加计算分析预测候选药物疗效和安全性的能力。

人工智能在临床研究中的广泛应用仍然面临着一个挑战，即主要监管机构是否接受这种虚拟安慰剂组、合成病人和数字终点，以及基于人工智能的决策算法的验证。显然，不管这个领域的进展如何，真实世界的临床研究仍然需要，但在人工智能的帮助下，可能会更少、更简单、设计得更好。

结束语

考虑到药物开发是为选择正确的靶点、药物、剂量方案和病人而做出的一系列重要决定，似乎很明显，人工智能可以通过捕捉海量和多模式数据的价值来支持这些决定中。因此，人工智能和ML无疑将在药物开发中产生一场前所未有的革命，使这一复杂而昂贵的过程最终变得更便宜、更有效，同时预期将缩短发现阶段，减少药物开发过程中的失败率。卫生行业目前正在快速整合这些新技术，这体现在致力于人工智能应用于药物开发的公司数量呈指数级增长。2020年，免疫肿瘤学领域的第一个人工智能设计的药物仅经过12个月的研究就进入了I期临床评估，而药物发现通常需要5-7年的时间。利用人工智能对现有分子的挖掘，也在创纪录的时间内发现了一种新的抗生素，命名为halicin。众多由网络计算产生的药物再利用机会也已被发现，应用于癌症、神经系统疾病和COVID-19。值得注意的是，虽然ML大多被应用于化学分子的设计，但这些方法也被考虑用于生物药物的设计和选择，包括合成寡核苷酸、单克隆抗体或具有目标药理特性的肽类。

药物设计和开发包含了一系列现有的人类专业知识，人类和机器智能之间的协同对于成功提高药物设计和开发至关重要。智能机器可以提供巨大的计算内存和功率，从大量的多模态数据中进行非监督性分析。而深度学习方法被同化为黑盒子，相比之下，人类擅长提取特征，并提供分类任务的基本原理的透明度，或从预测模型的输出中提供可解释性。在湿式实验室和真实世界的临床研究中，需要人类的专业知识来设计和执行验证实验。重要的是，在实施人工智能时，需要人类的智慧和判断力来考虑道德影响。由算法告知的诊断或治疗决定的最终责任在于医疗保健专业人士。

通过帮助提供对病人特征的前所未有的了解，人工智能正在为高度个性化的医学铺平道路，提供未来治疗和预防措施的视角，精确地根据每个病人的生理和疾病特异性的需求进行定制。人工智能和ML也支持医学的发展，通过访问包括疾病、病人和候选药物的多维模型，预测性越来越强，并通过让病人和健康人参与管理他们的健康而进一步提升。因此，我们可以预见，人工智能和ML会带来向综合计算型精准医疗的快速演变。

参考资料

Philippe Moingeon, Mélaine Kuenemann, MickaëlGuedj, Artificial intelligence-enhanced drug design and development: Toward acomputational precision medicine, Drug Discovery Today, 2021, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2021.09.006.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。