打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【深度学习】通过深度学习理解酶的温度适应性
userphoto

2022.10.25 北京

关注
背景——

自然界生物经过数亿年的进化,已经能适应从-10℃直到110℃的温度环境。生物对高温环境的适应能力与其体内蛋白质、特别是酶的温度适应性密切相关。探索影响生物体内酶温度适应能力的因素,是基础生物学、蛋白质工程和药物研发等领域的重要问题之一。已有大量研究分析了温度对蛋白质折叠、蛋白质生物学功能和生物体各系统功能等的影响,但蛋白质序列本身如何影响其温度适应能力,目前仍不是十分清楚。

最近,来自瑞典Chalmers University of TechnologyMartin Engqvist课题组用一维卷积提取酶序列特征,训练了一个CNN模型DeepET来预测酶对应生物体的最佳生长温度(Optimal growth temperature, OGT),又通过迁移学习方法将DeepET学到的蛋白质序列表示用于酶最适温度Topt和熔点TM的预测,结果均超越了已有的最优方法。最后,作者分析了酶序列的统计特征对模型预测结果的影响,推断出对酶适应高温环境最重要的一些氨基酸残基种类和二级结构,还分析了具备高热稳定性的酶可能的生物学功能。相关成果于1020日发表在Protein Science1

——方法与结果——

构建预测酶对应生物体OGT的模型DeepET
作者在过去的工作中2收集得到了约650万条不同酶序列与其对应生物体OGT的数据集(OGT数据集),数据集包含了大量细菌、真核生物和古菌体内酶的序列信息和物种的最佳生长温度。清洗后数据的分布如图1a1b所示。作者搭建了一个带有残差的CNN(卷积神经网络)模型(图1c),使用一维卷积操作提取酶序列的特征,然后预测酶对应生物体的OGT。作者得到的最优模型在测试集上RMSE约为5.5 ℃,R2约为0.59Pearson相关系数为0.77,对数据拟合较好(图1d)。
1 (a)OGT数据集中细菌、真核生物和古菌的OGT分布,括号中为该类型物种总数;(b)OGT数据集的整体分布;(c)DeepET模型架构,输入蛋白序列被表示为矩阵,每行表示一个氨基酸残基的one-hot编码,序列长度固定为2000,不足部分以0填充;(d)DeepET模型的测试集结果,RMSE:均方根误差;ρpPearson相关系数;ρsSpearman相关系数

用迁移学习预测酶的最适温度和熔点
接下来,作者用迁移学习方法训练DeepET模型预测酶的最适温度(Topt)和熔点(Tm)。作者从文献中分别收集得到酶最适温度的实验数据1902TOPT数据集)3和酶熔点的实验数据2506条(TM数据集)4。这些数据可以通过两种方式对DeepET模型进行微调:冻结CNN网络参数,训练全连接层(FrozenCNN);训练全部网络参数(TuneAll)。作为对照,作者还测试了仅使用两个数据集从头训练模型(From Scratch)和直接使用DeepET预测(FrozenAll)的结果。为了对比使用DeepET学到的酶序列特征和使用其他常用蛋白质序列特征的效果,作者使用iFeatures5UniRep6两种特征结合多种传统回归模型在TOPT数据集和TM数据集上进行了训练和测试。TOPT数据集上的结果如图2a2d所示,TM数据集上的结果如图2b2e所示。可以发现迁移学习方法能有效实现小规模数据集上的准确预测,其R2高于从头训练的模型和使用常用序列特征的传统回归模型。不过迁移学习不仅对小规模数据集有效。作者又从Meltome7收集了一个更大的酶熔点数据集MELT,其含有41725条酶的熔点数据。在这一数据集上,迁移学习的效果也优于从头训练的模型(图2c2f)。
2 (a)-(c)不同模型在三个数据集上的测试结果,(a)TOPT数据集,(b)TM数据集,(c)MELT数据集;(d)-(f)从三个数据集上训练得到的最优模型在测试集上的预测结果,(d) TOPT数据集,(e)TM数据集,(f)MELT数据集

探索影响酶温度适应能力的因素
为了探索序列中影响酶温度适应能力的因素,作者选择预测Topt的最优模型,通过扰动模型的输入序列来确定对预测结果影响最大的氨基酸残基位点。具体来说,对同一条序列,作者每次选择其中一个位点,将以位点为中心前后连续的5个氨基酸残基的编码置零,预测扰动后序列的Topt,如此遍历序列中的全部位点(向序列两端补齐与各端相同的残基,使得序列中每个位点都能被扰动)。扰动后显著改变预测结果的位点是决定酶最适温度的关键位点。对于这些关键位点上的氨基酸残基类型分布和二级结构类型分布,嗜热生物体内的酶和全体酶的平均结果存在显著差异(图3、图4)。作者还分析了含有这些关键位点比例较高(>30%)的蛋白结构域在嗜热生物体内所对应的酶。对这些酶的功能分析表明,它们主要参与嗜热生物的代谢过程和应激反应过程。这意味着嗜热生物能适应高温很可能是由于这两种生物过程中酶的热稳定性增强。
嗜热生物体内酶序列上关键位点各氨基酸残基的平均占比(黑色)与全体酶平均值(橙色)
嗜热生物体内酶各二级结构的平均占比(黑色)与全体酶平均值(橙色),横轴为DSSP二级结构符号

——小结——

作者构建了从酶序列预测酶对应生物体OGTCNN模型DeepET,又用迁移学习方法将DeepET用于酶最适温度和熔点的预测中,取得了比现有方法更好的结果。作者进一步通过扰动DeepET 的输入序列,探索了与酶热稳定性有关的氨基酸残基、二级结构和结构域。DeepET从计算角度提出了对酶温度适应性的新见解,有良好的预测能力,未来可能在解释蛋白质热稳定机制、酶的热稳定性改造等方面发挥更多作用。

参考文献:
1. Li, Gang, et al. "Learning Deep Representations of Enzyme Thermal Adaptation." Protein Sci. (2022): e4480. DOI: 10.1002/pro.4480
2. Li, Gang, et al. "Machine Learning Applied to Predicting Microorganism Growth Temperatures and Enzyme Catalytic Optima." ACS Synth. Biol. 8.6 (2019): 1411-20. DOI: 10.1021/acssynbio.9b00099
3. Leuenberger, Pascal, et al. "Cell-Wide Analysis of Protein Thermal Unfolding Reveals Determinants of Thermostability." Science 355.6327 (2017): eaai7825. DOI: 10.1126/science.aai7825
4. Li, Gang, et al. "Performance of Regression Models as a Function of Experiment Noise." Bioinform. Biol. Insig. 15 (2021): 11779322211020315. DOI: 10.1177/11779322211020315
5. Chen, Zhen, et al. "Ifeature: A Python Package and Web Server for Features Extraction and Selection from Protein and Peptide Sequences." Bioinformatics 34.14 (2018): 2499-502. DOI: 10.1093/bioinformatics/bty140
6. Alley, Ethan C., et al. "Unified Rational Protein Engineering with Sequence-Based Deep Representation Learning." Nat. Methods 16.12 (2019): 1315-22. DOI: 10.1038/s41592-019-0598-1
7. Jarzab, Anna, et al. "Meltome Atlas—Thermal Proteome Stability across the Tree of Life." Nat. Methods17.5 (2020): 495-503. DOI: 10.1038/s41592-020-0801-4
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
面板数据固定效应 vs. 随机效应
李子奈:计量经济学模型方法论的若干问题
写给你的金融时间序列分析:应用篇
百度深度学习的图像识别进展 – 视觉机器人
CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结
最全: ARCH, GARCH等模型家族是什么?软件如何做?怎么解释?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服