样本方差公式是怎样推导出来的呢？

既然是「方差」，所以很自然要计算一个「差」，然后计算一个「方」，「差」就是数据跟平均值的差，然后对它求平方。把这样一个平方看成是与平均值之间的某种距离，然后对它求一个平均就可以了。

你可能马上就会意识到，上面的这个说法似乎有不严格的地方。例如，在「样本方差公式」里，最引人注目的，就是这个公式里的「平均」不是简单去除以样本量，而是要去除以样本量减去1这样一个奇怪的数字。这其实是这个问题的关键。

为什么会出现这样奇怪的情况呢？如果我就是要用数据量 n，那么会造成怎样的后果呢？这就要仔细来看看有关的推导了，注意看下面的一个推导（引用自维基百科）：

在这个推导里，我们就直接用的是除以 n，然而在推导下来之后我们会发现，除非是在统计估计中，估计的 X 平均跟真实的平均值完全相等时，我们才能得到正确的方差，否则，如果我们除以 n，得到的方差总比真实的方差小那么一点点，这一点点差别就是「偏差」。使用 n-1，就意味着我们在进行的是「无偏估计」。

还有一种更直观的理解，因为在计算方差的时候我们用到了平均值，而一旦有了平均值，原始数据的 n 个数就不再独立了，例如我知道，两个数字的平均值是 60，然后我又知道了其中一个数字是 58，另一个数字我不看就知道肯定是 62。如果原始数据有 n 个，在计算的时候还知道了（估计的）平均值，那么这 n 个数据里，真正独立的只有 n - 1 个，所以应该用 n - 1。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。