协方差与协方差矩阵

标签：协方差协方差矩阵统计

引言

最近在看主成分分析（PCA），其中有一步是计算样本各维度的协方差矩阵。以前在看算法介绍时，也经常遇到，现找了些资料复习，总结如下。

通常，在提到协方差的时候，需要对其进一步区分。（1）随机变量的协方差。跟数学期望、方差一样，是分布的一个总体参数。（2）样本的协方差。是样本集的一个统计量，可作为联合分布总体参数的一个估计。在实际中计算的通常是样本的协方差。

在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为零。定义如下。

当XX，YY是同一个随机变量时，XX与其自身的协方差就是XX的方差，可以说方差是协方差的一个特例。

或

在写程序计算样本的协方差矩阵时，我们通常用后一种向量形式计算。一个原因是代码更紧凑清晰，另一个原因是计算机对矩阵及向量运算有大量的优化，效率高于在代码中计算每个元素。

需要注意的是，协方差矩阵是计算样本不同维度之间的协方差，而不是对不同样本计算，所以协方差矩阵的大小与维度相同。

很多时候我们只关注不同维度间的线性关系，且要求这种线性关系可以互相比较。所以，在计算协方差矩阵之前，通常会对样本进行归一化，包括两部分：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。