打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
为10亿多患者创造更多可能,生物计算助推免疫新药发现
userphoto

2022.11.29 福建

关注

——百图生科打造世界首个超大规模跨模态生物计算模型

摘要:本案例描述了在当下这一中国健康事业发展的最佳历史机遇期,百图生科如何基于全球首个大规模跨模态生物计算AI大模型,变革传统新药研发格局,解码免疫系统,助力攻克免疫相关疾病。如今,随着数据的积累和技术的进步,免疫疾病的精准诊断和治疗进入一个新的历史发展阶段,中国科学院院士董晨称之为“免疫3.0/计算免疫学时代”。其中,AI是最值得关注的新兴先进生产力之一。但是,面对生物医药领域的海量、分散、形式各异的数据,面对人体免疫系统的高度复杂度,究竟应该如何搭建起有效的AI工具?在这个问题上,作为国内首家生物计算公司,百图生科作出重要示范,打造了全球首个超大规模跨模态生物计算大模型“xTrimo”。这一大模型体系能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,为开发突破创新性药物提供强大的计算生物学能力,从而为全球10亿多患者带来更多新的可能。

关键词:生物计算;预训练模型;百图生科;人工智能;多模态;新药研发;免疫疾病;蛋白质结构预测

案例正文:

在一个人的全生命周期,免疫系统是机体正常运行的“基石”。数据显示,人类疾病的90%以上都与人体免疫系统异常相关。

但是,我们对于整个免疫系统的认知还远远不够。这也就导致了,目前全球仍有超10亿人不得不忍受着癌症、自身免疫性疾病、纤维化、感染性疾病、衰老等免疫相关疾病的痛苦。

虽然在应对疾病的手段上,我们已经发展出了疫苗及多种免疫调节药物,但当前免疫调控药物尚未实现精准靶向和调控,因此在有效性和安全性上仍有较大改进空间。

与此同时,全球的新药研发一直面临研发周期长、研发投入高、成功率低等亟待破解的现实问题,为了缩短研发周期、降低成本、提高成功率,这就需要借助人工智能(AI)、大数据等更加智慧的“工具”。正如中国工程院院士詹启敏所表示的,近年来我国推进的前沿生物技术,其中一项就是用人工智能来预测蛋白结构、发现药物靶点。

当整个医药行业对新的工具如饥似渴,当全球数亿生命对新的治疗手段翘首以盼,全球首个跨模态生物计算大模型“xTrimo”应运而生。

当AI“读懂”免疫系统

从整个人体来看,免疫系统是一个由细胞、组织和器官组成的高度复杂的系统:

其中一个器官发生了问题,就会引起全身的各种各样的复杂反应;器官内部也是一个复杂的网络,一种器官由各种不同类型的细胞构成;而细胞中各种各样的蛋白质、DNA、RNA,还需要通过非常复杂的相互作用协调才能完成细胞的功能;这些各种各样的蛋白质、DNA、RNA,本身都是非常复杂的大分子,有着自己的结构和功能。

所以,无论器官、组织还是细胞尺度来看,整个免疫系统都是一个非常复杂的网络。

幸运的是,这个复杂的网络并非不可观测,诸如高通量测序等实验技术的发展,使得生物医药数据呈现不同尺度的“大爆炸”状态。例如,蛋白质序列数据是以指数级增长的,它的增长速度甚至超过了芯片中计算单元的增长速度。

一方面是系统本身的高度复杂性,一方面是这种复杂性带来的数据爆炸,对传统的生物学或者生物信息学家来说,传统的、小型的分析工具已愈发难以奏效。

得益于人工智能技术的发展,尤其是预训练范式的出现,整合多尺度生物数据、解析免疫系统的复杂性成为可能。

技术原理上,大规模预训练模型使用自监督学习的方法,让模型先对海量无标注数据中的规律和知识进行提炼、学习,当面向任务和场景应用时,只需要少量的任务标注数据,就能通过持续微调得到在应用场景中非常好用的模型,对具体任务的赋能效果显著。

如今,人工智能落地已经进入“大模型”时代,美国斯坦福大学的权威研究团队更是将这一类大规模预训练模型形容为“基础模型”(Foundation Models),意味着其会是各种行业智能应用必不可少的大型基础设施。

在NLP、CV等多类任务上,大模型已经展现出碾压性优势,发展生物计算大模型正当时:人体这一多尺度的复杂网络,加上多模态、高噪音的超大规模生物数据,非常需要独有的超大模型来提升研发效果。因此,百图生科开发了具有千亿参数的生物计算大模型体系“xTrimo”,为开发突破创新性药物提供强大的计算生物学能力。

“xTrimo”能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,理解生物数据之间关联性,让大量可能没有标签、不是针对特定问题产生的数据,转化成一类标准,并且在训练之后,能够很好迁移到其他靶点和疾病上。这也正是跨模态生物计算大模型的特殊之处。

在结构上,与生物计算领域蛋白质序列、蛋白质相互作用、细胞层面、细胞系统四个不同层面的信息相对应,整个“xTrimo”体系也采用4层嵌套结构:

最内层的模型吸收蛋白质序列信息,对蛋白质的结构、性质进行预测;

第二层模型吸收蛋白质与蛋白质、蛋白质与其他分子之间相互作用的数据,进行蛋白质相互作用复合物结构预测、抗体抗原结合表位预测以及结合的亲和力预测等问题;

第三层是更大尺度的细胞层面的建模,同时考虑蛋白质相互作用、蛋白质对基因表达调控的功能关系,预测细胞在扰动以及组合扰动的情况下发生的变化;

在单个细胞建模之上,最外层模型要考虑复杂的免疫系统以及免疫系统和肿瘤或其他环境的相互作用,需要引入大量细胞之间的相互通信、细胞和环境之间相互作用的数据,从而更好地预测免疫系统对扰动的响应。

使用公开的实验数据和百图生科的自产数据进行预训练之后,模型可以吸收这些泛相关数据中的信息,获得各式各样的表征,这种底层的表征可以用在上层模型上作为输入,第二层模型输出又可以作为上面一层模型的输入,让整个体系里的数据流通,或是让模型之间组合在一起。最后,在细胞系统层面的模型可以和下面的蛋白质预训练模型链条产生更好的效果。

实验结果证明,即使在蛋白质结构预测这个已经被AlphaFold2充分挖掘的问题上,预训练大模型也能带来显著的提升。

AI加速药物研发

借助“xTrimo”不断深入揭秘和高度模拟人类整个免疫系统,科研人员现在可以在AI的指引下更系统地寻找靶点、更有针对性地进行药物设计。

要知道,虽然当今的新药研发早已不是“神农尝百草”,但又陷入到“反摩尔定律”的困境之中:10亿(资金成本高)、10-12年(研发周期长)、5%-10%(成功率低)。

当前主流药物研发主要还是依托传统生物学,根据相对有限的实验数据或文献报道结果,筛选可能靶点或作为推动功能验证的依据。

这其中的流程和链条非常之长,有在实验室发现的过程,在动物身上验证的过程,也有在真实病人身上验证的过程,中间每个环节都有非常重要的参数需要考虑。整个实验的流程本身就很长。后续还需要等待病人加入,临床试验同样旷日持久。

如果在医药研发的前期阶段,让AI模型能够考虑到后续可能造成失败的因素,让诸如药物筛选、研发出来的靶点、对应的药物一次通过实验,就可以更好地缩短流程,让科研人员更快研发出新药。如果在计算机中就能进行初期的药物筛选,减少实验的次数,这不但能够把造价缩减到诸如一半的程度,也可以大大加速药物的研发过程,让人们用同样的资金研发出更加多的药物。

随着“xTrimo”体系的发展和迭代,AI在蛋白质药物设计上展现了巨大潜力,“反摩尔定律”这堵高墙正在被瓦解。

以药物发现领域最重要的任务之一——抗体结构预测和设计为例,抗体是免疫系统用来识别中和病原菌和病毒等异物的蛋白质,在免疫系统中发挥着重要作用。近年来,深度学习方法在蛋白质结构预测方面取得了巨大成功。尤其是AlphaFold2的出现,成为结构生物学领域的一项重要突破。

然而,AlphaFold2的计算效率,以及其在抗体特别是抗体互补决定区域(CDR)预测的准确性还不够理想,限制了其在工业高通量药物设计中的应用。

2022年10月,“xTrimo”体系下的新模型xTrimoABFold ,则突破了这一限制。实验结果显示,xTrimoABFold 优于基于 MSA 的 AlphaFold2,执行速度比 AlphaFold2 快 151 倍,并且在抗体结构预测上的准确率显著优于所有最新的SOTAs,成为目前已知世界上最准确的抗体结构预测模型。

研究团队表示,xTrimoABFold新模型对抗体结构更加精准、速度更快的预测,将对药物研发产生实质性的重要影响。

目前,已经有一批基于“xTrimo”体系设计的创新药物进入到后续开发阶段。

展望未来,超大规模预训练模型被认为是AI行业的明珠,将其融入到整个医药研发链条上,必然还需要巨大的持续投入和全行业的共同努力,正如百图生科首席AI科学家宋乐博士所言:“药物发现问题的社会价值和行业价值极高,比起其他任务场景,更能支持大规模预训练模型的建设投入,目前百图生科作为平台型生物计算企业敢于这样挑战这一难题,未来一定也会有更多企业投身到这个趋势中,最终推动生物计算大模型成为AI界最亮的明珠”。

案例评点:

“百图生科在做一件伟大的事业,在尝试解码人体复杂的免疫系统,并试图按照这个逻辑来治病救人。我们积聚了人类最强大脑和最强的运算机器和算法,这是一个前无古人的进军。我相信,我们一定会成功解码免疫、解码疾病、解码人体。”

——中国科学院院士董晨

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
抗体亲和力预测领域取得国际领先水平,百奥几何“AI制药”实现重要突破
10亿美元!百图生科与赛诺菲合作开展基于AI大模型的药物研发
百图生科发布新型药物「免疫机器人」,CEO刘维:制药不是零和游戏
AI科学语言大模型火了,数学生物样样行,编代码写综述也不在话下
张亚勤院士谈“智能计算新趋势”
百图生科宋乐博士浅谈:AI for Science 的下一步,计算生物学的下一程
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服