Normalization | 关于归一化方法的一些思考

撰稿：纪剑

责编：纪剑

数据的完整性和准确性是后续获得具有统计学和生物学意义的分析结果的必要条件。在确保实验设计的合理性和实验数据的准确性的基础上，首先对数据的完整性进行检查，对缺失值进行删除或者补充，删除极值，并对数据进行样本间和代谢物间的归一化处理（Normalization），以确保各样本之间和代谢物之间可平行比较。这里，归一化容易与数据缩放的概念产生混淆。

归一化的目的，主要是矫正一些误差，包括样品量的误差、萃取过程的误差、衍生化的误差（如果采用的是GCMS检测代谢物）、仪器检测的误差等。这些误差是不可以避免的，只能尽最大程度的进行矫正，以减少这些误差对实验中生物学特征的干扰。而数据缩放（包括数据log转换）的目的，则是更好的进行多元统计分析，对单元统计分析的结果无影响。

常规的归一化方法有哪些？一般常见的，包括一些常见的网站上自带的功能的归一化方法包括：内标归一化、面积归一化（mTIC、fTIC）、QC归一化、指定归一化指数等等。对于中等样品或者大样本代谢组学研究中，QC归一化的方法甚是关键（个人感觉小样本代谢组学数据无需复杂的归一化，容易过拟合，数据失真）。

说到QC归一化的方法，不得不提进样顺序和batch effect。在这个层次上，有很多的方法被开发，关于batch内和batch间的数据矫正，如：LOWESS、SVM、Batchration、SERRF等等（这里举例的是小编常用的方法，不具代表性）。在bioinformatics以及analytical methods上面可以检索到非常多的关于QC数据矫正的方法和算法。

在矫正的前后需要对矫正的质量进行评估，包括模型是否过拟合，QC的CV值如何，batch effect在PCA中是否有显著的聚类，等等。小编以一个数据为例：

图1 none-normalization PCA，（A）sample type, (B) Batches effect

从图中可以看到，PCA中QCs的分散相对来说比较明显，这个实验的数据分为4个batches，每个batch有各自的QCs，batch间的QC不一致。这样分散特征相对来说比较正常，从图B中也能明显看到，4个batches中，只有batch B和batch C相对比较稳定，batch A和batch D偏离较大，这也是造成QCs离散的主要原因之一。QC的RSD值为0.32。

我们采用一批矫正方法对数据进行矫正，并比较矫正的程度。

图2 mTIC-normalization PCA，（A）sample type, (B) Batches effect

图3 Median-normalization PCA，（A）sample type, (B) Batches effect

从图2和图3的结果来看，mTIC和Median矫正对数据并没有太大的作用，QCs聚集程度和batches间的差别也没有得到较好的改善。QC的RSD值分别为0.27和0.25。

图4 SERRF-normalization PCA，（A）sample type, (B) Batches effect

图5 SVM-normalization PCA，（A）sample type, (B) Batches effect

图6 Batchration-normalization PCA，（A）sample type, (B) Batches effect

从图4和图5的结果来看，SERRF和SVM矫正对数据起到很好的矫正作用，QCs聚集程度相对改善比较明显，但是batches间的差别没有得到较好的改善。QC的RSD值分别为0.11和0.15。图6采用的是Batchration的算法进行矫正，其最大的特征就是降低batch间的差异，从PCA的结果来看，也能非常明显的看出来4个batch间的差异性减小了很多，但是对QC的作用似乎不是特别的明显。此时的QC RSD值为0.22。

换一句话说，SERRF非常好的将QCs聚集到的一起，而Batchration非常好的降低了batch间的差异，我们可以将两个方法叠加使用，以达到聚集QC，降低batch间差别的目的（咨询了Sili和Shilin，均表示可以这么操作）。

图7 Sample type PCA of SERRF+batchration Normalization

图8 Batch effect PCA of SERRF+batchration Normalization

从图7和图8的数据可以看到，QCs在PCA中聚集程度较好，此外batch间的差异性较小，相对比较好的降低了数据的差异。此时的QC RSD为0.1。（这里之所以PCA结果与之前的不同，是因为这里的PCA数据采用了log转换和pareto缩放）。

（待续）

参考文献：

https://slfan2013.github.io/SERRF-online/

Systematic Error Removal using Random Forest (SERRF) for Normalizing Large-Scale Untargeted Lipidomics Data Sili Fan, Tobias Kind, Tomas Cajka, Stanley L. Hazen, W. H. Wilson Tang, Rima Kaddurah-Daouk, Marguerite R. Irvin, Donna K. Arnett, Dinesh Kumar Barupal, and Oliver Fiehn Analytical Chemistry Just Accepted Manuscript DOI: 10.1021/acs.analchem.8b05592

------------------------------------------------------------------------

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。