打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
蛋白质组学数据分析—缺失值

上期蛋白质组学数据分析课程为大家介绍了数据分析—标准化的内容,本期我们整理了第二讲“蛋白质组学数据分析缺失值的听课笔记,继续分享给各位想入门的小伙伴们~

质谱已逐渐成为蛋白质组学研究中的主流技术,借此研究人员可以从单一批次的实验中检测到数百上千种蛋白质,这使得借助于大规模数据集进行生物学发现成为可能。但受到肽段的响应信号低于质谱仪器的检测下限、质谱对母离子采集具有随机性等原因的影响,蛋白质组的定量结果(尤其是无标定量实验)中往往含有较多的难以判定来源的缺失值[1](数据表中通常表现为-inf、na、null、nan、empty等)。缺失值产生的原因包括蛋白质仅在某几个样品中存在,或者浓度太低而低于质谱检测下限,以及蛋白质谱图无法得到正确匹配等等。在后续的数据分析前需要对缺失值进行一定的处理。若不对这些缺失值进行插补,则可能影响后续的差异蛋白筛选等分析工作。

通常来说,可以通过蛋白质过滤与缺失值插补两种可联用的方式对缺失值进行处理。

顾名思义,蛋白质过滤为依据一定的阈值标准剔除仅在极少数样本完成定量的蛋白质条目,此操作会导致待分析的蛋白质数目减少。通常来说会筛除在技术重复测定时仅在单一样本被定量的蛋白,或者在样本中低于一定比例样本中被定量的蛋白(例如某一蛋白质在一定百分比的样品中存在,而仅在极少数部分样品中缺失,我们则考虑保留该蛋白质)。若某些蛋白质仅在对照组或实验组样本中被定量,则不建议直接过滤。

缺失值插补则是基于一定的模型或规则(比如自身实验的假设和数据特点),构建缺失值的替换值,对原有的缺失值进行替换,此操作不会对待分析的蛋白质数目产生影响。由于缺失值与具有低表达水平的蛋白质相关,通常来说替换值多为一些较小的值。

最为简单地,可以使用固定值进行缺失值的替换,如将缺失值替换为固定值1(由于某些分析方法需要进行对数操作,此处不建议使用0替换缺失值)或将缺失值填充为各样本的最小的有效定量值,这种操作相对简单易行,但在与Quantile标准化等方式联合使用时,可能会出现同组实验条件下校正值完全相同的极端情况。此时可以选用一些非固定值进行缺失值替换,如可以依据有效定量值中最小的5%计算均值及标准差,以此为依据生成与缺失值数目等量的替换值。上述最小值插补的假设是数据中的缺失值是由于这些蛋白低于质谱检测下限,由于低丰度而导致的缺失。

此外,也可以使用多重插补(multiple imputation)、k近邻、奇异值分解、局部最小二乘法等算法[2],基于其他样品的蛋白质强度推断样本的相似性并生成替换值。这些插补方法往往是假设数据中的缺失值是由于检测随机性导致的,因此可以用跟该缺失值最相近的蛋白推测该缺失值。

为了便于大家理解,我们以一批磷酸化蛋白质组定量样品信息为例,利用最小值插补法进行缺失值处理演示。如图1所示,我们采集到的磷酸化蛋白质组数据共有三个实验组(exp1,exp2和exp3),每个实验组分别包含三个重复(例如exp1中的三个重复分别是exp1-1,exp1-2和exp1-3)。这9组实验的定量结果中存在少部分缺失值(NAN),存在缺失值的蛋白质在其他实验组中大多存在定量信息,由此我们可以假设这些缺失值的存在是由于某一样品中该蛋白质含量低于质谱检测限度而无法得到定量信息。我们利用最小值插补法,将每一组有效定量值中的最小值作为该缺失值的替换值(如图2),以进行后续的其他数据分析。

图1 包含缺失值的磷酸化蛋白质组定量结果

图2 最小值插补缺失值后的磷酸化蛋白质组定量结果


参考文献:

[1] Lazar C, Gatto L, Ferro M, et al. Accounting for the multiple natures of missing values in label-free quantitative proteomics data sets to compare imputation strategies[J]. Journal of proteome research, 2016, 15(4): 1116-1125.

[2]Välikangas T, Suomi T, Elo L L. A comprehensive evaluation of popular proteomics software workflows for label-free proteome quantification and imputation[J]. Briefings in bioinformatics, 2017, 19(6): 1344-1355.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
蛋白质组学习小组起飞啦!
目前蛋白质组学技术仍面临三个主要挑战:分析速度,蛋白质组覆盖深度,以及定量分析的质量。
SILAC(定量蛋白质组学)技术原理
数据整理——大数据治理的关键技术
R数据分析:扫盲贴,什么是多重插补
数据分析领域常提到的数据预处理,说的到底是什么?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服