方差分析（一）：方差分析的基本原理

本文转自SAS知识（ID: SASadvisor），摘自《深入解析SAS — 数据处理、分析优化与商业应用》

回复「朝阳35处」可查看「说人话的大数据」系列合辑

方差分析可以用来判断几组观察到的数据或者处理的结果是否存在显著差异。

本文介绍的方差分析（Analysis of Variance，简称ANOVA）就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种数理统计方法。

方差分析

在实际应用中，常常需要判断几组观察到的数据或者处理的结果是否存在显著差异。比如，想要了解不同地区的信用卡用户在月均消费水平上是否存在差异就是多组数据是否存在差异的示例，至于不同处理的结果是否存在差异的示例也有很多，例如，几种用于缓解手术后疼痛的药品，它们之间的治疗效果即药效持续的平均时间是否存在差异，实际上考察的就是不同的处理（将药品作用于患者）其结果是否存在差异。

若上述的信用卡月均消费水平或治疗效果存在差异，那么这种差异是统计显著的吗？也就是说，这种差异是某一个或几个因素作用的结果吗？例如是由于地区差异或不同的药物引起的吗？还是纯粹随机误差（譬如说随机抽样过程）的体现呢？

本系列文章介绍的方差分析（Analysis of Variance，简称ANOVA）就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种数理统计方法。

方差分析的基本原理

在方差分析中，我们把要考察其均值是否存在显著差异的指标变量称为响应变量，对响应变量取值有影响的其他变量称为因素。例如，信用卡消费水平和治疗效果为响应变量，地区和药品则为因素。在方差分析中，因素的取值应为离散型的，其不同的取值称为水平。例如，每一个具体地区或者每一种药品都对应着一个水平。根据因素的个数，方差分析可以分为单因素方差分析和多因素方差分析。

方差分析的模型

为了更好地解释方差分析的模型，首先来看看单因素的情形。考虑如下示例：现有四种用于缓解术后疼痛的药品1、2、3和4，为了研究它们的治疗效果是否存在显著差异，对每一种药品都进行了4次试验。试验结果如表11.1所示。

如果我们把每一种药品的治疗效果看成一个总体，本例要解决的问题就可以归结为检验四个总体的均值是否相等的问题。记四种药品对应的总体的均值为

，那么，该检验问题的原假设和备选假设分别如下：

假设为第种药品的第次试验结果，例如-Y12=6, Y21=5。对于每一次固定的试验，药效的持续时间可以看成是由该药品的平均持续时间和个体差异导致药效的持续时间差异这两部分组成的，

即第j组药品的第i个疗效=药品j的疗效+服药个体间的差异

将上述式子以符号的形式表示如下：

表示第j个水平下第i个观测与该水平均值之间的差异，也称误差项（Error Term）。在实际问题中，误差项表示除考虑因素之外的其他因素或者其他不可观测的随机因素（如天气等）的影响。在方差分析中，一般假定不同水平下的

服从均值为0、相同方差的正态分布，即

，且彼此间相互独立。上述模型（1）也是单因素方差分析的一般模型。事实上，为了突出水平间的作用，我们常常将模型（1）改写为：

其中，

表示因素的均值，

表示该因素下第j个水平的效应（Effect of Treatment j），记该等式表示的模型为模型（2）。例如，在上述药效的例子中，

为所考察的四种药品作用于患者的药效平均持续时间，

为第j种药品和

之间的差异，即该药品的效应。

从上面方差分析模型可以看出，方差分析本质上是一个线性问题，对于该问题，理论上，我们可以利用最小二乘法对模型进行拟合，得出具体

值或

，进而判定水平间是否具有显著差异。但是，在实际计算中，一般不会直接对模型进行拟合，而是采用追溯响应变量变化的来源，即其方差的来源，来判定均值间是否有显著性差异。

方差分析的基本思想

响应变量的方差既可以是因素不同水平间的差异，也可以是抽样过程本身。前者可以由模型中的因素解释，后者则对应了模型中的误差项部分。

在方差分析中，我们将所有样本响应变量的方差称为全部平方和（Total Sum of Squares，简称

），公式如下：

这里Yij是第j个水平下的第i个观测，

是所有抽样的均值。在上述药品试验的例子中，

为四种药品16次试验的结果均值。

我们将由因素不同水平间差异引起的、可以由模型中因素解释的部分方差称为模型平方和（Model Sum of Squares

，简称）；将由抽样过程本身引起的部分方差称为误差平方和（Error Sum of Squares

，简称）。二者计算公式分别如下：

其中，

为水平Aj下所有样本的平均值，nj为该水平下样本观测数目。在上述例子中，

为第j种药品所进行的4次试验结果的平均值，nj为4。公式中

描述的是水平Aj下抽样均值和所有抽样均值之间的差异，nj可以看该水平对应的权重。

上述三个统计量

、

和

三者的关系如下：

在响应变量方差中，如果由因素不同水平引起的差异占显著比例，那么可以推断该因素对响应变量的差异具有显著作用；反之，如果抽样过程本身引起的差异占显著比例，那么可以推断该因素对响应变量的差异不具有显著作用。在方差分析中，衡量上述两部分比例大小的统计量为F统计量，其计算方法具体如下：

在上述公式中，是水平的个数，n为所有水平下的样本容量的总和，(s-1)为模型的自由度，(n-s)为误差自由度的自由度。F比值中的分子和分母分别称为模型均方（Mean Square Model，简称MSM）和误差均方（Mean Square Error，简称MSE）。

此外，在多元统计分析中，我们称

和

的比值为R方，（也称决定系数，Coefficient of Determination），即

该统计量用于衡量模型能解解响应变量方差比例的大小，其取值介于0与1之间，其值越大意味着模型能解释的比例越大，即模型对数据的拟合得越好，当其值趋近于0时，模型几乎不能解释响应变量方差。

在实际计算中，方差分析的步骤如下：

1) 建立原假设与备选假设。原假设为s个水平对应的均值相等，备选假设为s个水平对应的均值不全相等。

2) 给定显著性水平

，在SAS方差分析的过程步中，该值默认为0.05。

3) 根据计算

统计F统计量的值F0。

4) 根据模型的自由度(s-1)以及误差自由度的自由度(n-s)，可以确定一个F分布。由该F分布的概率密度函数和F0，可以进一步计算出在该F分布中大于F0的p值，p=pr(x>F0)。例如，图11.1显示的是模型自由度为3、误差自由度为12的F分布概率密度图，从图中可以看出对应F0-4的p值为0.035（曲线下位于直线F0=4右方尾部部分的面积为0.035）。

5) 若p值小于给定的显著性水平

，那么可以拒绝原假设，认为s个水平对应的均值不全相等；反之，则接受原假设，认为s个水平对应的均值相等。

图11.1 F(3, 12)概率密度图

方差分析的假设

回顾上面的模型（2）中方差分析的假设条件为：

，

相互独立。残差本质上来源于抽样样本。因此，该假设条件等价于：

每组观测服从正态分布。
每组观测的方差相等，即方差齐性。
样本数据集中观测间是独立的。

上述三个假设前提条件中，观测间相互独立意味着样本数据集中某一个观测所包含的信息与其他观测均无关。一般地，在进行方差分析试验的初始阶段就应该验证观测间是否独立。其次，在实际应用中，往往并不要求观测严格服从正态分布，如果观测近似服从正态分布（当观测数目足够多的时候，一般认为观测的分布是服从正态的），就认为其满足方差分析的正态性假设。最后，方差齐性可以通过假设检验来判断，有关这方面的内容，我们会结合SAS的过程步一并介绍。

本文结束，下一篇文章介绍单因素实验的方差分析。

回复【数据和代码】可以下载《深入解析SAS》一书的数据和代码。

作者：夏坤庄、徐唯、潘红莲、林建伟

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。