打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
机器学习在药物研发及发展中的应用

摘要:药物研发和发展过程漫长且复杂,同时受到多种因素制约。机器学习(ML)为应用高质量数据优化探索及决策过程提供了一系列工具方法。在药物研发的整个阶段均可将机器学习方法应用于其中。这些例子包括靶点验证、预后生物标志物的识别和临床试验中数字病理数据的分析。应用范围涵盖背景和方法学,其中不乏通过一些方法得到更精准的预测和深入理解。应用ML的挑战主要在于缺乏ML生成结果的可解释性和可重复性,这可能会限制它们的应用。在各种不同研究领域,仍然需要系统而全面的高维数据。随着对这些问题的不断深入,以及对验证ML方法深入认识,ML的应用可以加速依赖于数据的决策,同时降低新药发掘和研发的失败率。

概述:高通量的生物学和疾病研究方法的出现,给制药行业带来了挑战和机遇,其目的是确定合理的治疗假设,从而开发药物。最近一些因素的进展导致制药行业对机器学习(ML)方法的使用越来越感兴趣。与无限可伸缩的存储相结合,数据集(图像、文本信息、生物识别和来自可穿戴设备的其他信息、分析信息和高维组学数据)的类型和大小的大量增加可能为ML提供基础,这使得制药公司能够访问和组织更多的数据。先进的ML算法,如深度学习(DL),极大地增加了ML在制药公司中的应用。药物开发的总体成功率只有6.2%(根据一期临床试验)。在制药行业中使用ML技术的主要原因是为了降低总体消耗和成本。药物发现和开发的所有阶段(包括临床试验),已经开始着手开发利用ML算法和软件确认新靶点,为靶点与疾病的联系提供有力的证据,改善小分子化合物的设计和优化,提高对疾病机制的理解,提高对疾病和非疾病表型的理解,开发预后,进展和药物疗效的新型生物标志物,改进对患者监测和可穿戴设备的生物特征和其他数据的分析,增强数字病理图像,并从各级分辨率的图像中提取高内容信息。本综述概述了ML中使用的当前工具和技术(工具箱),包括深度神经网络,并概述了到目前为止在关键药物应用领域的进展。

机器学习工具箱

ML最适合用于解决手头有大量数据和多个变量,但不知道与这些数据和变量相关的模型或公式的问题。有两种主要类型的技术用于应用ML:监督和非监督学习。监督学习方法用于开发预测数据类别或连续变量未来值的训练模型,而非监督方法用于探索性目的,用于开发模型,以用户未指定的方式对数据进行聚类。


1.模型选择的概念:一个好的ML模型的目的是将训练数据很好地推广到手头的测试数据。泛化是指模型学习到的概念在训练中应用于模型没有看到的数据的程度。在每种技术中,都存在几种方法,它们在预测精度、训练速度和能够处理的变量数量方面各不相同。必须仔细选择算法,以确保它们适合手头的问题以及可用数据的数量和类型。


2.深度神经网络结构:DL是人工神经网络的现代化身,它使用复杂的、多层次的深度神经网络(DNNs)来创建能够从大量未标记或标记训练数据中执行特征检测的系统。DL与传统人工神经网络的主要区别在于所使用网络的规模和复杂性。DNNs在药物发现中的应用非常广泛,包括生物活性预测、从头分子设计、合成预测和生物图像分析。


3.数据的特征:ML的实践包括至少80%的数据处理和清理以及20%的算法应用。因此,任何ML方法的预测能力都依赖于高质量的高容量数据的可用性。用于培训的数据需要尽可能准确、合理和完整,以便最大限度地提高可预测性。


图2 |机器学习工具及其药物发现应用。

本图概述了机器学习技术,这些技术用于回答本综述中涉及的药物发现问题。一系列监督学习技术(回归和分类器方法)用于回答需要预测数据类别或连续变量的问题,而非监督技术用于开发支持数据聚类的模型。ADME:吸收、分布、代谢和排泄;CNN:卷积神经网络;CT:计算机断层扫描;DAEN:深度自编码神经网络;DNN:深度神经网络;GAN:生成对抗网络;MRI:磁共振成像;NLP:自然语言处理;PK:药代动力学;RNAi:RNA干扰;RNN:递归神经网络;SVM:支持向量机;SVR:支持向量回归。

药物发现的应用

1、靶点识别和验证:现代生物学的数据越来越丰富。这包括大量人群的人类遗传信息、健康个体的转录组学、蛋白质组学和代谢组学特征以及那些患有特定疾病的人以及临床资料的高含量成像。捕获这些大型数据集并通过公共数据库重新使用它们的能力为早期靶点识别和验证提供了新的机会。然而,这些多维数据集需要适当的分析方法来产生统计上有效的模型,这些模型可以为目标识别做出预测,而这正是ML可以被利用的地方。有助于靶点识别和验证的实验范围很广,但是如果这些实验是数据驱动的,那么ML就越来越多地被应用靶点识别的第一步是在目标和疾病之间建立因果关系。建立因果关系需要证明对目标的调节会通过自然发生的(遗传)变异或精心设计的变异影响疾病实验干预。然而,ML可以用来分析包含假定目标函数信息的大型数据集,从而预测潜在的因果关系。文献是关于靶点与疾病相关的知识的主要来源。对文献的自动处理可以从非结构化文本中解锁信息,否则无法访问这些信息。自然语言处理(NLP)是一种应用于文本挖掘的ML方法,它的最新进展使数据挖掘能够更有效地识别相关论文。ML的一个重要领域是了解生物学的基本方面,通过替代模式或新的靶点来确定治疗机会。对药物开发人员来说,另一个重要的问题是,针对任何给定靶点生产药物的可能性有多大。对于小分子药物,这需要识别具有表明这些蛋白质可以结合小分子特征的靶点。可以使用不同的靶点属性来生成这些可药物性模型。


2、小分子设计与优化:能够阻断或激活靶蛋白的候选药物的发现涉及到对大型化合物库的大规模虚拟和实验性高通量筛选。然后进一步细化和修改候选结构,以提高靶点特异性和选择性,同时优化药效学、药代动力学和毒理学特性。然而,重要的是,缺乏足够的高质量的新化学数据,可以限制ML对这种化学的影响。在推断小分子的性质和活性时,DNNs可以显著提高预测能力。DL的另一个有价值的应用是通过强化学习的分子从头设计。然而,必须指出的是,强化学习可能无助于识别新的和前所未有的合成路线。目前还不清楚哪种结构表示最适合哪种小分子设计问题。因此,化学信息学领域中ML研究的兴起是否会对结构表征的最佳选择提供更多的指导,将是一个有趣的问题。

图3 |机器学习模型在复合结构表示中的挑战。化学结构及其特征的适当表示可以根据所需的应用程序采用多种表示。扩展连通性指纹图谱(ECFPs)包含了分子的拓扑特征信息,这使得该信息可以应用于相似度搜索和活性预测等任务。库仑矩阵对分子的核电荷及其坐标进行编码。该网格featurizer方法结合了配体和靶向蛋白的结构特征,以及有助于结合亲和力的分子间力。对称函数是另一种常用的原子坐标信息编码方法,它关注的是原子对与三个一组原子内形成的对夹角之间的距离。图卷积法计算每个原子的初始特征向量和邻域列表,总结出原子的局部化学环境,包括原子类型、杂化类型和原子价结构。Weave featurization为分子中的每一对原子计算一个特征向量,包括键的性质(如果直接连接)、图的距离和环的信息,形成一个特征矩阵。


3、预测生物标志物:基于ML的生物标志物发现和药物敏感性预测模型被证明有助于提高临床成功率,更好地了解药物的作用机制,并为正确的患者识别正确的药物。利用临床前数据集的ML方法可以预测转译生物标志物。在使用独立的数据集(临床前或临床)进行验证后,该模型及其相应的生物标志物可用于对患者进行分层,识别潜在的适应症,并提示药物的作用机制。虽然已有数千篇关于生物标志物和预测模型的论文,但很少有用于临床试验。造成这一差距的因素有很多,包括数据质量、模型选择、数据和软件的访问、模型重现性以及适合临床环境的分析方法的设计。

图4|利用预测生物标志物支持药物发现和开发。

利用机器学习方法对临床前数据生成药物敏感性预测模型(黄框)。然后可以使用早期临床患者样本的数据对该模型进行测试。一旦得到验证,该模型可用于患者分层和/或疾病适应症选择,以支持药物的临床开发,并推断其作用机制。

EN, 弹性网; IHC, 免疫组织化学; MOA , 作用机制; RF, 随机森林;SVM, 支持向量机


4、计算病理学:病理学是一个描述性的领域,正如病理学家通过目视检查来解释在玻片上看到的东西。对这些玻片的分析提供了大量的信息,如组织中存在的细胞类型及其空间环境。肿瘤微环境中肿瘤细胞与免疫细胞之间的相互作用在免疫肿瘤学研究中越来越重要,其他技术无法捕捉到这种相互作用。制药公司需要了解药物治疗如何影响特定的组织和细胞,在选择临床试验的候选药物之前,需要测试数千种化合物。此外,随着临床试验数量的增加,发现新的生物标记物对于识别对特定治疗有反应的患者将变得越来越重要。增加对计算病理学的使用,可能有助于发现新的生物标志物,并以更精确、可重复和高通量的方式生成它们,最终将缩短药物开发时间,并使患者更快地获得有益的治疗。在DL之前,组织图像分析的算法通常是在病理学家的合作下受到生物学的启发,并要求计算机科学家手工绘制描述性特征,以便计算机对特定类型的组织或细胞进行分类。除了病理图像,DL还可以促进其他信息模式的整合。DL还可用于加速磁共振成像(MRI)数据采集或减少计算机断层成像(CT)所需的辐射剂量。随着时间分辨率、空间分辨率等成像质量的提高和高信噪比,图像分析的性能在图像量化、异常组织检测、患者分层、疾病诊断或预测等应用中可能会得到相应的提高。

图5 |计算病理学任务在机器学习中的应用。深度学习框架可以替代传统的手工制作的功能在几个基本的病理图像,识别任务(如分割的原子核,上皮细胞或小管,淋巴细胞检测,有丝分裂检测或肿瘤分类)使用图像分割(黄色背景),检测特定功能(蓝色背景)或检测的一组特征用于分类(绿色背景)。识别是基于任务特定的特征显示在粉红色区域,可以导致更准确的预后或预测疾病。


展望

ML方法和DL的最新发展为提高整个药物发现和开发管线的效率提供了许多机会。因此,我们预计在未来几年,将会有越来越多的应用程序用于解决整个行业中的问题。随着可用数据变得“更大”,而且随着计算机变得越来越强大,ML算法将系统地生成改进的输出,并且预期将出现新的、有趣的应用程序。如前述,我们已经清楚地说明了ML在目标识别和验证、药物设计和开发、疾病诊断和治疗预后的生物标志物识别和病理学方面的一些应用。这些方法也正在卫生保健领域得到应用,如果与药物发现相结合,可能会导致个性化医疗的重大进展。为了提高临床试验结果和优化临床试验资格评估流程,ML还被应用于电子病历和真实世界证据。然而,深度训练神经网络的一个典型问题是缺乏可解释性,即很难从训练过的神经网络中获得对其如何达到结果的适当解释。神经网络的另一个重要问题是可重复性,这是因为ML输出高度依赖于网络参数的初值或权重,甚至依赖于训练示例呈现给网络的顺序,因为它们通常都是随机选择的。另一个需要考虑的重要问题是,是否有大量高质量、准确和精心设计的数据来训练和开发ML模型。所需数量和准确度取决于数据类型的复杂性和要解决的问题。因此,生成这些数据集的成本可能很高。ML模型应用的另一个限制是使用它们来预测其他范例。由于ML的整个前提依赖于使用训练数据生成合适的模型,所以ML模型只能在已知的训练数据框架内进行预测。除了数据和模型之外,还需要加快培养了解药物科学以及计算机科学、计算统计学和统计ML并能熟练使用这些方法的研究人员。ML算法,包括DL方法,使人工智能在工业环境和日常生活中的应用成为可能。ML方法在药物发现和卫生保健的所有领域的影响日益深远。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
2021年智药邦公众号重要文章分类整理
研究发现,AI可精准预测癌症预后,有望应用于临床试验​
深度学习在生物医学领域的应用进展述评
基于深度学习与多层次信息融合的药物靶标亲和力预测
阿斯利康最新报告:人工智能和机器学习正在颠覆药物研发,并应用于药物安全和个性化治疗
使用深度学习进行多模态数据融合以发现癌症生物标志物
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服