生信分析系列三：蛋白质组学数据分析

从6月底开始，由博奥麦斯主办的蛋白质组学数据分析课程正式开课了。小编也打算借这个机会好好学习一下，以下是小编整理的第一讲“蛋白质组学数据分析——标准化”的听课笔记，分享给各位想入门的小伙伴们~

基于质谱的蛋白质组学正快速稳步发展。随着仪器精度的提升及鉴定算法的完善，蛋白质组学的研究重点已经逐渐从定性研究转移到了定量研究^[1]。但是蛋白质组学定量及数据分析容易受到系统偏差的影响，这些偏差往往由非生物因素导致且无法通过实验操作简单地消除^{[2, 3]}。

标准化（Normalization）的目的是尽可能减弱系统偏差对样本蛋白定量值（intensity）的影响，使各个样本和平行实验的数据处于相同的水平，从而使下游分析更为准确可靠^[2]。简单来说，当我们做WB或者QPCR实验时，我们会选择内参校正多个样本的定量值，蛋白质组数据标准化的作用类似。目前许多常用的标准化方法都源于基因组学、转录组学以及DNA芯片技术。

本文中列出了8种蛋白质组学数据分析中常用的标准化方式，除Quantile标准化方法以外的其他计算原理列于表1。

前四种方法通过将每个蛋白原始定量值除以对应样本的某指定值（例如平均数、中位数、最大值和总和等）实现校正（指定值也可以为实验中添加内标的信号强度值），每个样本的指定值在校正后变为1；后三种方法通过一定标准对原始数据进行缩放实现校正。

除去以上的标准化方法外，Quantile标准化是一种极为严格的方法，其校正值由秩次相同的原始值求均值而来。例如，表达矩阵的每一列都是一个样本，每一行都是一个蛋白，值就是表达量。对每列单独进行排序，排好序的矩阵求平均值，得到平均值向量，然后根据原矩阵的排序情况替换对应的平均值^[⁴^]（图1）。Quantile标准化的应用前提为各样本来源于相同的数据分布，进行此操作后各组样本的分布将完全一致。

在数据标准化方法的选择上目前没有可供遵循的通用法则，没有一种特定的标准化方法在所有数据集上都能发挥最佳作用。有研究人员建议在预实验时系统评估对于数据集而言最优的标准化方法，如可以多次测量对照样品并选择相关性最高的方法^[⁴^]。

此外，对于数据标准化与缺失值处理这两个步骤在数据预处理过程中的先后顺序，研究人员并未达成共识。由于某些标准化方法需要完整的数据矩阵作为输入，在后续构建工作流的工作中需要首先进行缺失值处理，但这一顺序可能会引起强度分布的变化，并某种程度上会减弱标准化消除偏差的效果。

后期我们将详述处理缺失值的方法。

参考文献：

[1] Megger DA, Bracht T, Meyer HE, et al. Label-free quantification in clinical proteomics [J]. Biochim Biophys Acta, 2013, 1834: 1581–90.

[2] Chawade A, Alexandersson E, Levander F. Normalyzer: a tool for rapid evaluation of normalization methods for Omics data sets [J]. J Proteome Res, 2014, 13: 3114–20.

[3] Karpievitch YV, Dabney AR, Smith RD. Normalization and missing value imputation for label-free LC-MS analysis [J]. BMC Bioinformatics, 2012, 13: S5.

[4] Välikangas T, Suomi T, Elo L L. A systematic evaluation of normalization methods in quantitative label-free proteomics[J]. Brief Bioinform, 2016, 19(1): 1-11.

北京博奥麦斯生物技术有限公司是一家专业从事蛋白质及代谢组学外包服务的公司。

我们拥有目前最先进的高分辨及高精度的质谱设备。研发团队在生命科学、农学及医学领域具有丰富的多组学研究经验，可提供专业的数据分析方案。

欢迎对组学感兴趣的老师与我们沟通交流。

技术支持

公众号

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。