Nature评论｜安进呼吁通力合作，为人工智能提供正确数据，加快药物研发

2023年9月19日，安进（Amgen）的高级研发总监Marissa Mock、生物治疗中心研发副总监Suzanne EdavettalNature等人在Nature上发表了一篇题为“AI can help to speed up drug discovery — but only if we give it the right data”的评论，呼吁同行通力合作，以更快的速度和更低的成本开发出药品。

蛋白质药物只有不到 10% 的候选药物在临床试验中获得成功，每种药物的潜在成本高达数十亿美元，并且在患者等待治疗的过程中浪费了数年的时间。

由于蛋白质可以有一个以上的结合域，因此可以设计出能附着于一个以上靶点的疗法，例如，既能附着于癌细胞，也能附着于免疫细胞。将两者结合在一起，就能确保消灭癌细胞。所以，基于蛋白质的药物具有广泛的治疗潜力。

要打破药物开发的瓶颈，就必须改进蛋白质药物在体内作用的计算机模型。要对未来的候选药物做出更好的预测，需要收集大量数据，了解以前的候选药物在临床试验中成功或失败的原因。要训练有效的机器学习模型，需要数百或数千个蛋白质的数据。

但是，即使是最有成果的生物制药公司，在 2011 年到 2021 年间，平均每年也只启动了 3-12 项蛋白质疗法的临床试验（见 go.nature.com/3rclacp）。单个制药公司，无法独自积累足够的数据。

将人工智能纳入药物研发管线可能会有所帮助。

生物技术与尖端科技的结合

药物开发是一项劳动密集型工作，耗费大量时间。任何阶段的失败都意味着要从头开始。

改变药物研发流程

图示蛋白质科学中传统工作流程与人工智能工作流程的区别

生物制药公司正在利用人工智能加快药物开发。机器学习模型利用以往候选药物的氨基酸序列或三维结构信息以及相关特性进行训练。训练后，人工智能模型就能识别数据中的模式。如果给定蛋白质的氨基酸序列，模型就能预测蛋白质将具有的特性，或设计出一个"改进"版本的序列，估计其将赋予所需的特性。随着预测能力的提高，有朝一日这种模型可能会从头开始设计有效的药物。

简而言之，这种融合了尖端生命科学、高通量自动化和人工智能（被称为生成生物学）的技术极大地提高了药物开发人员预测蛋白质在溶液中的稳定性和行为的能力。现在，我们公司在开发候选药物直至临床试验阶段所花费的时间比五年前减少了 60%。

但事实证明，与药物在体内的行为有关的特性仍无法预测，尤其是具有多个靶点的复杂药物。

要训练有效的机器学习模型，需要数百或数千个蛋白质的数据。

为了积累足够的数据，生物制药公司需要共享特定氨基酸序列的物理特性、蛋白质的靶向分子以及药物在体内的作用方式等信息。然而，这些数据也是商业资产，能让开发商以极具竞争力的速度将治疗药物推向市场。

机器学习的两种专门方法可以提供一条出路，使公司能够在不泄露竞争数据的情况下集中资源。

联邦学习

机器学习模型经过训练后，可在获得更多数据时进行更新。有了"联邦学习 (Federated learning)" ，各方可以使用数据集更新共享模型，而无需共享基础数据。

联邦学习如何为生物制药公司所用？

值得信赖的一方--技术公司或专业咨询公司--将维护一个"全局"模型，该模型最初可以使用公开数据进行训练。该方将向每家参与的生物制药公司发送全球模型，后者将利用公司自身的数据对其进行更新，以创建新的"本地"模型。受信任方将汇总本地模型，生成更新的全球模型。这一过程可以重复进行，直到全局模型基本上停止学习新模式。

抗体疗法是临床上使用的蛋白质药物的一个例子

我们参与的小分子药物联合学习项目MELLODDY表明，这种方法是有效的（www.melloddy.eu）。在该项目中，安进公司和其他九家制药公司利用 2,100 多万个候选小分子药物的药理学和毒理学数据，对共享的联邦学习模型进行了为期三年的训练。所有十家合作伙伴使用共享模型预测小分子药物特性的效果都优于使用自己现有的模型。大多数公司在预测小分子如何被人体吸收、分布、代谢和排泄方面的能力提高了 10% 以上。

MELLODDY的介绍参见本公众号文章

AI药物发现的数据共享模式探索：以十大顶尖药企参加的MELLODDY项目为例

主动学习

"主动学习(Active learning)"方法利用了机器学习模型可以检测到不寻常的输入（例如，与训练数据中的氨基酸序列截然不同的氨基酸序列），并提醒用户其对该输入的预测是不可靠的。

通过主动学习，算法可以确定对这类异常氨基酸序列进行更可靠预测所需的训练数据。

生物制药公司已经开始使用主动学习技术。现在，它应该与联邦学习相结合，以提高预测效果，尤其是针对更复杂的特性。

抗体是最常见的蛋白质药物类型，因此可获得的数据也最多。可以利用联邦学习来汇集每家公司已开发或在临床试验中测试过的抗体信息。然后，主动学习将揭示一组值得描述的抗体序列，以提高模型的预测能力。这些序列可以从观测抗体空间数据库中选择，该数据库是一个公共资料库，其中列出了十亿多种天然存在抗体的氨基酸序列。使用公开的序列可以避免泄露专利药物靶点的风险。

促进协作竞争

蛋白质药物研发公司尚未采取必要的措施来实现联邦学习和主动学习。我们鼓励生物制药公司组成联合体，共享联合学习和主动学习平台。根据我们在 MELLODDY 项目上的经验，认为以下因素将是促成合作竞争的关键。

参与者必须共同为其模型选择一个平台。技术公司已经建立了与行业无关的基础设施来实现联邦学习（如英伟达 FLARE；go.nature.com/3pa8qwr）。技术或咨询公司应得到所有参与者的共同认可，成为全球共享模型可信赖的第三方。

合作成本低。需要投资来格式化历史数据集供机器学习模型使用、获取主动学习算法所需的新数据、安装和运行软件以及提供法律咨询。但这笔投资只相当于使用传统方法开发药物成本的一小部分，尤其是考虑到合作开发的模型应使未来的药物开发工作成本更低。

准确决定联盟应共享哪些测量数据和指标。我们建议，来自体外测试的药理学和稳定性数据以及来自临床试验的数据应纳入共享范围，重点是预测能为人们带来最大益处的特性。公司应致力于扩大临床测量，将已知会影响人们是否对药物产生免疫反应的因素包括在内。

保护自己的竞争利益。我们建议联盟的每个创始成员共享最低数量的数据，以此作为访问平台的条件。初始模型训练完成后，主动学习将提供一种机制来计算模型的当前值，新的参与者将通过贡献增加设定值的数据集来加入联盟。

根据我们在 MELLODDY 项目上的经验，我们预计每个参与者看到的改进会有所不同。但所有参与者最终都会发现，他们能以更快的速度和更低的成本开发出药品。

我们正站在药物开发的转折点上。未来，我们有可能利用生物生成技术，开发出多特异性蛋白质药物。我们呼吁同行通力合作，加快这一激动人心的未来的到来。

参考资料：

doi: https://doi.org/10.1038/d41586-023-02896-9

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。