打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
关于回归分析中的置信区间和预测区间

不少初学者往往混淆均值的置信区间和个体的预测区间(prediction interval),在有的统计软件中,同时给出回归线的置信区间和预测区间,致使有的初学者搞不懂它们有什么区别。

其实二者很容易区分,置信区间是针对因变量均值的区间,而预测区间是针对因变量个体值的区间。不难理解,针对均值的置信区间肯定要窄一些,而具体想预测某一个体值,那区间肯定要宽,因为误差会很大。

比如,让你预测一个高中班级中学生的平均身高,跟让你预测该班级中具体某一个学生的身高,你觉得哪个误差更大呢?对于一个班级的均值,即使你什么信息都不知道,估计预测的也差不到哪儿去,而让你预测班中的张三同学的身高,那你可能就不知所措了。

(1)均值的置信区间

线性回归中,我们假定,对于每一特定的x值,其对应的y值应该是来自一个服从某一均值和标准差的分布。例如,调查温度与手足口发病率的关系,温度=10℃,假定其对应的手足口发病率是来自一个服从均值为10(1/10万),标准差为4(1/10万)的总体分布。

当我们调查这一数据时,得到的是这一总体分布中的某一随机数值(所以说y是随机变量)。根据样本数据建立的回归方程,可以估计出当x等于某一数值时,y的估计值(也就是y的总体均值的估计值)。比如根据方程式:

发病率=-0.011+0.995*温度

可以估计出,温度=10时,对应的手足口发病率的均值估计为9.941/10万)。

由于是总体均值的估计,那就必然会有估计的误差(标准误),这一标准误是可以计算出来的(公式略,格式不好调整,感兴趣的等本书出版后看书)

因此根据标准误、均值估计值,便可以估计置信区间。这一置信区间反映的是样本估计yi的均值的这一范围有多大的信心包含了总体均值。

如月份温度=10℃时,手足口发病率均值的95%置信区间为(6.64,16.25)。这说明,对于温度=10℃这样的月份,我们有95%的信心认为,(6.64,16.25)这一区间包含了手足口发病率的总体均值。其暗含的意思就是(尽管不是很严谨),有95%的信心认为,对于温度=10℃的所有月份,它们对应的手足口发病率的均值在(6.64,16.25)之间。这句话虽然不是很严谨,但其隐含的意思其实就是如此。

(2)个体的预测区间

如果我们已知某一特定的x值,想根据该值预测对应的具体y值,也就是预测某个具体值,这就是对个体的预测。例如,调查了多个地区1-12月的气温和手足口发病率,已知11月的温度=10℃,据此预测某一地区11月手足口发病率是多少。这跟均值的置信区间不同,它不是预测所有地区的11月份的平均发病率,而是预测这一个地区11月的发病率。因此其标准误必然更大,当然也可以计算出来(公式略,格式不好调整,感兴趣的等本书出版后看书)。

由于标准误大了,该区间必然要比均值的置信区间要宽。例如,已知某地11月的温度=10℃,如果要预测这一地区11月份的发病率,其95%置信区间为(-1.55,21.44)。可以发现这一区间远远比均值的置信区间要宽得多。

下图给出了置信区间预测区间,可以看出置信区间(红色区域)较窄,而预测区间(蓝色区域)要宽得多。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
统计模型分析
高斯过程回归(GPR)
Nature子刊:基于海马功能连接预测模型预测个体对压力的主观感受
R语言分布滞后线性和非线性模型(DLMs和DLNMs)分析时间序列数据
PEFR预估值公式及记录表格
(重温稿)《中国新债预测》五年期续发国债收益率预测均值3.45%,接近二级市场 | 债券 ...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服