书接上文:
设有N个样品,每个样品有两个观测变量X1,X2,这样,在由变量X1,X2组成的坐标空间中,N个样品散布的情况如带状,如下图。
上图中的N个样本点,无论沿着X1轴方向还是X2轴方向,都有较大的离散性,其离散程度可以分别用观测变量X1的方差或X2的方差测定。
当只考虑X1和X2中的任何一个时,原始数据中的信息将会有较大的损失。
考虑X1和X2的线性组合,使原始样品数据可以由新的变量Y1和Y2来刻画,在几何上表示就是将坐标轴按逆时针方向旋转
,得到新坐标轴Y1和Y2 。其矩阵形式为
U为旋转变换矩阵,且
,即是正交矩阵。经过这样的旋转之后,N个样品在Y1轴上的离散程度最大(方差最大),变量Y1代表了原始数据的绝大部分信息,即使不考虑变量Y2,信息损失也不多。而且, Y1、 Y2不相关。只考虑Y1时,二维降为一维。
因此,经过上述旋转变换就可以把原始数据的信息集中到Y1轴上,对数据中包含的信息起到了浓缩的作用,进行主成分分析的目的就是找出转换矩阵U,而进行主成分分析的作用与几何意义也就很明了了。
联系客服