高级数理统计 | 样本与统计量

第一章、样本与统计量

一、引言：

二、总体与样本：

三、统计量——随机变量的数字特征：

1、均值、方差

2、矩、协方差、相关性与协方差矩阵

3、距离与相似系数

4、抽样分布定理

四、常用分布：

第一章、样本与统计量

本讲首先介绍了样本与统计量的基本概念，包括：总体、个体、样本、总体分布与样本分布；然后介绍了统计量的概念和几个常见的统计量：样本均值、方差、标准差、 k 阶原点矩和k 阶中心矩；最后介绍了抽样分布的概念与抽样分布定理。

一、引言：

由于大量随机现象必然呈现出其规律性，因而从理论上讲，只要对随机现象进行足够多次的观察，随机现象的规律性就一定能够清楚地呈现出来。但是，客观上只允许我们对随机现象进行次数不多的观察或试验，也就是说：我们获得的只能是局部的或有限的观察资料(即样本)。

数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料，并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据，分析这些数据需要多种多样的方法。

因此，数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。

参数估计: 根据数据，对分布中的未知参数进行估计；

假设检验: 根据数据，对分布的未知参数的某种假设进行检验。

参数估计与假设检验构成了统计推断的两种基本形式，这两种推断渗透到了数理统计的每个分支。

【简单的讲】我们希望通过（有限的）样本及其统计量等信息去分析样本（的分布等），进而（通过参数估计和假设检验）去推断和检证整体的规律。

二、总体与样本：

1、总体、个体与样本：

在数理统计中，称研究问题所涉及对象的全体为总体，总体中的每个成员为个体。例如: 研究某工厂生产的某种产品的废品率，则这种产品的全体就是总体，而每件产品都是一个个体。

实际上，我们真正关心的并不一定是总体或个体本身，而真正关心的是总体或个体的某项数量指标。如：某电子产品的使用寿命，某天的最高气温，加工出来的某零件的长度等数量指标。因此，有时也将总体理解为那些研究对象的某项数量指标的全体。

为评价某种产品质量的好坏，通常的做法是：从全部产品中随机(任意)地抽取一些样品进行观测(检测)，统计学上称这些样品为一个样本。同样，我们也将样本的数量指标称为样本。因此，今后当我们说到总体及样本时，既指研究对象又指它们的某项数量指标。

【例1】研究某地区 N 个农户的年收人。在这里，总体既指这 N 个农户，又指我们所关心的 N个农户的数量指标──他们的年收入( N 个数字)。如果从这 N 个农户中随机地抽出 n 个农户作为调查对象，那么，这 n 个农户以及他们的数量指标──年收入( n个数字)就是样本。

【注意】上例中的总体是直观的，看得见、摸得着的。但是，客观情况并非总是这样。如【例2】

【例2】用一把尺子测量一件物体的长度。假定 n 次测量值分别为X1,X2 ,…,Xn。显然，在该问题中，我们把测量值X1,X2 ,…,Xn看成样本。但总体是什么呢?

事实上，这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是，我们可以这样考虑，既然 n 个测量值 X1,X2 ,…,Xn 是样本，那么，总体就应该理解为一切所有可能的测量值的全体。

又如：为研究某种安眠药的药效，让 n 个病人同时服用这种药，记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数 X1,X2,…,Xn，则这些数字就是样本。那么，什么是总体呢?

设想让某个地区(或某国家，甚至全世界)所有患失眠症的病人都服用此药，则他们所增加睡眠的小时数之全体就是研究问题的总体。

2、总体分布

对一个总体，如果用X表示其数量指标，那么，X的值对不同的个体就取不同的值。因此，如果我们随机地抽取个体，则X的值也就随着抽取个体的不同而不同。所以，X是一个随机变量! 既然总体是随机变量X，自然就有其概率分布。我们把X的分布称为总体分布。总体的特性是由总体分布来刻画的。因此，常把总体和总体分布视为同义语。

【例 3 (例 l 续)】在例 l中，若农户年收入以万元计，假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布，分布律为:

0.5

0.8

1.2

1.5

p k

n1/N

n2/N

n3/N

n4/N

n5/N

【例4 ( 例2续 )】在例2中，假定物体真实长度为μ(未知)。一般说来，测量值X就是总体，取μ 附近值的概率要大一些，而离μ 越远的值被取到的概率就越小。如果测量过程没有系统性误差，则X取大于μ 和小于μ 的概率也会相等。

在这种情况下，人们往往认为X 服从均值为μ，方差为σ2 的正态分布。σ2反映了测量的精度。于是，总体X的分布为 N(μ ,σ2)。

【说明】这里有一个问题，即物体长度的测量值总是在其真值 μ的附近，它不可能取负值。而正态分布取值在(-∞,∞)上。那么，怎么可以认为测量值X服从正态分布呢? 回答这个问题，有如下两方面的理由。

(1)对于X∼N(μ,σ2)， P{μ-3σ<X<μ+3σ}=0.9974. 即 X 落在区间(μ-3σ,μ+3σ)之外的概率不超过 0.003, 这个概率非常小。X 落在(μ-4σ,μ+4σ)之外的概率就更小了。

例如：假定物体长度μ =10厘米，测量误差为0.01厘米，则σ2=0.012。这时((μ-3σ,μ+3σ)=(9.97,10.03)。于是，测量值落在这个区间之外的概率最多只有0.003，可忽略不计。可见，用正态分布 N(10,0.012)去描述测量值X是适当的。完全可认为：X 根本就不可能取到负值；

(2)另外，正态分布取值范围是(-∞,∞)，这样还可以解决规定测量值取值范围上的困难。

如若不然, 就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么, a和b到底取什么值呢？测量者事先很难确定。再退一步，即使能够确定出a和b，却仍很难找出一个定义在 (a,b) 上的非均匀分布用来恰当地描述测量值。与其这样，还不如干脆就把取值区间放大到(-∞,∞),并用正态分布来描述测量值。这样，既简化了问题,又不致引起较大的误差。

【离散分布和连续分布的说明】

● 如果总体所包含的个体数量是有限的, 则称该总体为有限总体。有限总体的分布显然是离散型的，如【例3】。

● 如果总体所包含的个体数量是无限的，则称该总体为无限总体。限总体的分布可以是连续型的，如【例4】；也可是离散型的。

但是，在数理统计中，研究有限总体比较困难。因为其分布是离散型的，且分布律与总体中所含个体数量有关系。通常在总体所含个体数量比较大时，将其近似地视为无限总体，并用连续型分布逼近总体的分布，这样便于进一步地做统计分析。如【例5】

【例5】研究某大城市年龄在1岁到10岁之间儿童的身高。

显然，不管城市规模多大，这个年龄段的儿童数量总是有限的。因此，该总体X只能是有限总体。总体分布只能是离散型分布。然而，为便于处理问题，我们将有限总体近似地看成一个无限总体，并用正态分布来逼近这个总体的分布。当城市比较大，儿童数量比较多时，这种逼近所带来的误差，从应用观点来看，可以忽略不计。

【样本的二重性】样本X1,X2,…,Xn既被看成数值，又被看成随机变量

● 假设 X1, X2, …, Xn 是总体X中的样本，在一次具体的观测或试验中，它们是一批测量值, 是已经取到的一组数。这就是说，样本具有数的属性。

● 由于在具体试验或观测中，受各种随机因素的影响，在不同试验或观测中，样本取值可能不同。因此，当脱离特定的具体试验或观测时，我们并不知道样本 X1,X2,…,Xn 的具体取值到底是多少。因此，可将样本看成随机变量。故样本又具有随机变量的属性。

【例 6 (例2续)】在前面测量物体长度的例子中，如果我们在完全相同的条件下，独立地测量了n 次，把这 n 次测量结果，即样本记为 X1,X2,…,Xn .

那么，我们就认为：这些样本相互独立，且有相同的分布；其分布与总体分布 N(μ ,σ2)相同。

【将上述结论推广到一般的分布】如果在相同条件下对总体 X 进行 n 次重复、独立观测，就可以认为所获得的样本X1,X2,…,Xn是 n 个独立且与总体 X 有同样分布的随机变量。在统计文献中，通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量。

3、样本分布

既然样本 X1,X2,…,Xn 被看作随机向量,自然需要研究其联合分布。

假设总体 X 具有概率密度函数 f (x)，因样本 X1,X2,…,Xn独立同分布于 X，于是，样本的联合概率密度函数（也叫似然函数（likehood））为：

【例7】假设某大城市居民的收入 X 服从正态分布N(μ ,σ2), 概率密度为

现从总体 X 中随机抽取样本 X1,X2,…,Xn ,因其独立同分布于总体 X，即： Xi ∼ N(μ ,σ2), i＝1,2,…,n. 于是，样本X1,X2,…,Xn的联合概率密度为

三、统计量——随机变量的数字特征：

由样本推断总体的某些情况时，需要对样本进行“加工”，构造出若干个样本的已知 (确定)的函数，其作用是把样本中所含的某一方面的信息集中起来。这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。

1、均值、方差：

（1）数学期望：

（2）方差：

【总体】

式（1.65）证明如下：方差等于平方均值减去均值的平方

Var(x)= E[ (x-Ex)²]

= E[x²-2xEx+(Ex)²]

= E(x²)-2ExEx+E(Ex)²

=E(x²)-2(Ex)²+(Ex)²

= E(x²)-[E(x)]²

【样本】注意方差不是除n，而是（n-1）

（3）几种常用随机变量分布的期望和方差：

2、矩、协方差、相关性与协方差矩阵

（1）矩与中心化、标准化数据:

【总体】

【样本】

（2）协方差与相关系数：

（3）协方差矩阵与相关矩阵：

【协方差矩阵和相关系数矩阵的关系】由二者的定义公式可知，经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。这里所说的标准化指正态化，即将原始数据处理成均值为0，方差为1的标准数据。

3、距离与相似系数

【证明第（3）和（4）条之间的关系】

4、抽样分布

统计量既然依赖于样本，而后者又是随机变量，故统计量也是随机变量，有一定的分布，这个分布称为统计量的抽样分布。

【抽样分布定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本，则当 n 充分大时, 近似地有:

证明如下：

【正态分布标准化定理】若X~N（μ，σ2），则 Z = （X-μ）/σ ~ N(0,1)

【中心极限定理】设 X1,X2,...,Xn是来自均值为μ ,方差为 σ2 的总体的样本，则当 n 充分大时, 近似地有:

【应用1】可轻易的计算随机样本均值的概率分布值

【应用2】

【例1】用机器向瓶子里灌装液体洗涤剂，规定每瓶装 μ 毫升。但实际灌装量总有一定波动。假定灌装量的方差 σ2=1，如果每箱装这样的洗涤剂 25 瓶。求这 25 瓶洗净剂的平均灌装量与标定值 μ 相差不超过0.3毫升的概率；又如果每箱装50瓶时呢?

解：记一箱中 25 瓶洗净剂灌装量为 X1,X2,..., X25 是来自均值为μ , 方差为1的总体的随机样本。根据抽样分布定理1，近似地有

四、常用分布：

1、χ2 分布：它是由正态分布派生出来的一种分布。

【定义】设 X1, X2, …, Xn 相互独立，且均服从正态分布 N(0, 1), 则称随机变量

服从自由度为 n 的卡方分布，记成χn2 。

其实卡方分布是一种伽玛分布（α=n/2，Β=1/2时），详见【附伽玛分布和函数内容】

【附伽玛分布和函数内容】具体详见文章【LDA-math-神奇的Gamma函数】

其实伽玛函数可以看成阶乘在实数上的扩展。

【性质】如下

对于性质（1），可由正态分布的标准化公式推出，即Zi = （Xi-μ）/σ ~ N(0，1)，则Σ(Zi2)符合卡方分布。

对于性质（3），由于卡方分布是伽玛分布的特殊情况，则可直接由伽玛分布的均值和方差算出。

【分布密度函数】

【分布分位点】具体数值可以查表

2、t 分布：

【定义】设 X ～N(0, 1) , Y ～χn2 , 且 X与Y 相互独立，则称随机变量

为服从自由度 n 的 t 分布，记为 T ～ tn。

可以看出t分布的概率密度函数是偶函数，即 f(t) = f(-t)

t1-α（n） = -tα（n）

3、F分布：

【性质1】若 X ~ Fm,n，则 Y = X -1 ~ Fn,m

【性质2】

在通常 F 分布表中，只对α 比较小的值,如α = 0.01, 0.05, 0.025及0.1等列出了分位点。但有时我们也需要知道α 比较大的分位点，它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。

【例】对m=12, n=9, α=0.95, 我们在 F 分布表中查不到 F12,9(0.95)，但由(1)式，知

【性质3】若X ~ tn , 则X2 ~ F1,n。

4、正态总体样本均值与样本方差的分布

性质（4）是由性质（1）和（2）共同推出的。定理（1）（2）（4）基本上就是后面参数估计和假设检验的核心。

【例】在设计导弹发射装置时，重要内容之一是研究弹着点偏离目标中心的距离的方差。对于某类导弹发射装置，弹着点偏离目标中心的距离服从 N(μ,σ2)，这里σ2 = 100米2。现在进行了25次发射试验，用 S2 记这25次试验中弹着点偏离目标中心的距离的样本方差。求: S2 超过50米2的概率。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。