近日,在全球持续蛋白质结构预测竞赛(Continous Automated Model EvaluatiOn,CAMEO)上,中国团队开发的 HeliXonAI 超越 AlphaFold2,刷新全球蛋白质结构预测纪录。
HeliXonAI 是北京华深智药科技有限公司(华深智药)自主研发的人工智能科学计算平台。“我们在 AlphaFold2 的基础上进行了一系列优化改进,模型更大更深,还加入了进化信息调整模块和原子几何构型,经过连续 3 个月的训练,在一些方面能够赶上甚至超越 AlphaFold2。” 华深智药创始人彭健博士告诉生辉。
图|华深智药创始人彭健(来源:受访者提供)
华深智药由清华大学人工智能产业研究院孵化、世界计算生物学专家彭健创立。该公司致力于打造新一代人工智能科学计算平台,结合自研高通量生物实验技术,为研发人员提供微观世界分子计算、模拟与设计的智能系统,比如针对大分子药物开发,华深智药使用 AI 重构药物开发流程来提高新药的研发速度和效率。
据悉,今年 10 月,华深智药完成了千万美元的天使轮融资,投资机构包括襄禾资本、高瓴创投、清智资本等。
“做一些敢想但不敢做的事”
彭健于 2013 年获芝加哥大学丰田技术学院计算机科学博士学位,曾在麻省理工学院计算机科学与人工智能实验室进行博士后研究,主要研究领域为生物信息学、化学信息学和机器学习,目前是伊利诺伊大学厄巴纳 - 香槟分校(UIUC)计算机科学系及医学院终身教授。并于 2020 年获得计算生物领域最高奖项 ISCB Overton Prize,成为获得该奖的唯一华人。
问及为什么选择计算生物这个方向,“非常看好生物技术这个领域。” 彭健总结道。如今,生物技术发展非常快,目前人们获得的数据和 5 年前相比呈指数级增长。“这些技术发展或者数据积累带来的机会,是通过利用机器学习的方法、计算的方法,对数据进行更深层次地分析,使得我们从中发现更多对生命科学的重要理解。” 他补充说。
至于为什么后来选择创业,彭健表示,学术界所做的研究偏向于 “小而美”,毕竟在高校实验室的资源有限,难以产生更大层面的影响力。加之,受到 DeepMind 团队开发出 AlphaFold2 的触动,我们希望通过创业进一步拓展资源以及想象空间,做一些以前在实验室里 “敢想但不敢做” 的事情。
今年 6 月,彭健创立了华深智药。“短期目标是希望把技术平台做好。接下来,我们将搭建自己的实验室,将高通量的实验办法和计算相结合,以便更好地发挥平台潜力。” 他说。例如,理解靶点机理等各种生物技术都依赖于实验平台,并且从科研到落地(比如成功开发出药物)也还有一段路要走。
“长远来看,想要真正意义上解决生命科学中的各种问题,需要对细胞、组织,乃至整个生命体进行建模。” 彭健表示。当前的蛋白质结构预测只是针对某个分子在某个时刻的静态瞬时成像,然而整个生命系统是变化的、动态的。“未来希望能够通过计算与实验整合的手段对疾病进行建模,通过计算模拟对细胞的影响,或者在计算疾病模型中对药物进行测试。届时,我们对人类大部分疾病都可以更容易地找到有效的治疗手段。” 他补充说。
随着对计算蛋白质结构研究的不断深入,未来将为生物技术发展带来强大推动力。比如,生命医药领域的大小分子药物设计、疫苗的设计,靶点研究、细胞疗法(CAR-T、TCR-T)、药物递送等,都需要对蛋白质结构进行设计和优化;再比如,合成生物学领域的工业用酶,通过对蛋白质进行结构设计和功能优化能够大幅提高生产效率。
HeliXonAI 部分性能领先 AlphaFold2?
去年,由 DeepMind 团队开发的 AlphaFold2 在第十四届国际蛋白质结构预测竞赛(CASP14)上几乎达到冷冻电子显微镜(Cryo-EM)等实验技术的准确度,消息一出引发业界轰动,成为掀起计算生物领域变革的标志性事件。
由瑞士生物信息研究所和巴塞尔大学联合举办的 CAMEO 与 CASP 被认为是蛋白质结构预测领域最重要的两项比赛,吸引了来自全球生物计算领域的顶级选手,包括华盛顿大学蛋白质设计研究所开发的 RoseTTAFold、百度开发的 PaFold 等。
目前,华深智药的 HeliXonAI 已经连续一个月在 CAMEO 的评价指标 lDDT(Local Distance Different Test)中以 84.8 分位列全球第一。(据此前 DeepMind 公开的 AlphaFold2 该项指标评分为 81.9 分。)
图|近一个月 HeliXonAI 排名位居榜首(来源:CAMEO-3D)
能够超越 AlphaFold2,HeliXonAI 进行了哪些改进?对此,彭健表示主要体现在以下几个方面:
其一,HeliXonAI 建模能力更强,模型更大更深,达到 1000 层,而 AlphaFold2 模型在百层以内;
其二,HeliXonAI 专门设计了进化信息调整模块,从而实现比较均衡的运算状态来对进化信息进行建模。AlphaFold2 采用 48+8 的模块设计,前 48 个模块用于序列信息的对比和处理,后 8 个模块用于给出结构 3D 坐标,而 AlphaFold2 在进化信息比较弱的情况下预测精度表现欠佳;
其三,HeliXonAI 对于生成结构模块进行了优化,更好地对蛋白质测链的原子分布进行了更好的几何建模。
经过上述一系列升级优化,“在进化信息比较弱的情况下,HeliXonAI 比 AlphaFold2 做的更好,当进化信息比较强的情况下,两者性能相当。” 彭健表示。
对于下一步的研究动向,“我认为 HeliXonAI,以及 AlphaFold2 其实并没有从真正意义上解决蛋白质结构预测的问题,它们只是从一定程度上利用了自然进化的信息对结构进行预测,所以,接下来我们要进行探索和尝试,不用自然进化信息进行结构预测,实现真正意义上的蛋白质结构预测。” 彭健指出,显然,这对计算机算力、模型的设计等各个方面都提出了更高的要求。
另外,如何将已经预测出的蛋白质结构更好地应用到药物开发中,比如抗体的设计、小分子的设计、肿瘤免疫蛋白质类药物的设计等,也是未来需要着力解决的问题。
蛋白质结构预测或成AI制药的源动力
蛋白质是人体细胞中重要的功能性分子,人体中绝大部分的生化反应都是通过蛋白质分子完成的,蛋白质空间结构极为复杂,在理解生命科学与药物开发中的地位举足轻重,并且蛋白质是现阶段绝大部分药物开发的靶点。
图|蛋白质结构示意(来源:维基百科)
如果能够准确预测蛋白质空间结构,那么就可以根据人们的需要定向制造蛋白质(比如根据患者的症状人工合成蛋白质药物)。因此,不论是学术界还是产业界,都热衷于蛋白质分子结构解析和功能探索。
通过对蛋白质的氨基酸序列进行修改,即可改变蛋白质功能或产生新的功能,比如增强抗体的结合能力,提高荧光蛋白发光效率,使基因编辑蛋白质的特异性变得更强等。
而从机器学习的角度来看,需要解决的难题是借助算法对蛋白质的功能进行预测,得知如何进行序列修改以改进其功能。“这些问题归根结底是对于基因序列设计的问题,使得蛋白质的序列能够朝着我们需要的功能方向进行优化。” 彭健总结说。
目前,解析蛋白质结构有三种方法:
第一,X 射线(X-Ray)。其优点是解析精度高(误差在 1-3Å 左右),缺点是需要进行结晶加工。虽然目前结晶机器人可以实现快速加工,但对于一些特别大的蛋白质分子难以结晶,另外,蛋白质分子在溶液中有不同的状态,结晶后也难以全部获得。
第二,核磁共振(NMR)。此方法通常是在溶液中对可溶性蛋白质进行解析。
第三,冷冻电子显微镜(Cryo-EM)。其精度误差范围约 4-10Å,主要是针对特别大的蛋白质分子进行解析。通过在液体中对蛋白质进行快速冷冻,在不同角度进行成像,用 2D-3D 重构的方法对蛋白质结构进行解析。
“我认为计算也是不可或缺的。” 彭健指出,“把蛋白质的不同结构通过计算预测的方法进行解析,我认为这是非常重要的一个研究方向,当然这也是一大挑战。”
联系客服