【算法系列】主成分分析的几何意义

书接上文：

【算法系列】主成分分析的数学模型

主成分分析的几何意义

设有N个样品，每个样品有两个观测变量X1，X2，这样，在由变量X1，X2组成的坐标空间中，N个样品散布的情况如带状，如下图。

上图中的N个样本点，无论沿着X1轴方向还是X2轴方向，都有较大的离散性，其离散程度可以分别用观测变量X1的方差或X2的方差测定。

当只考虑X1和X2中的任何一个时，原始数据中的信息将会有较大的损失。

考虑X1和X2的线性组合，使原始样品数据可以由新的变量Y1和Y2来刻画，在几何上表示就是将坐标轴按逆时针方向旋转

，得到新坐标轴Y1和Y2 。

其矩阵形式为

U为旋转变换矩阵，且

，即是正交矩阵。

经过这样的旋转之后，N个样品在Y1轴上的离散程度最大（方差最大），变量Y1代表了原始数据的绝大部分信息，即使不考虑变量Y2，信息损失也不多。而且， Y1、 Y2不相关。只考虑Y1时，二维降为一维。
因此，经过上述旋转变换就可以把原始数据的信息集中到Y1轴上，对数据中包含的信息起到了浓缩的作用，进行主成分分析的目的就是找出转换矩阵U，而进行主成分分析的作用与几何意义也就很明了了。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。