打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
统计?我懂个P!

也不知道P值是谁惹谁了,反正大家都喜欢拿他开刷!老早就有一篇争议挺大的公众号文章说「P值已死」,立马就有人反驳「别闹了,P值没死」。其实, Nature杂志在14年2月份时就刊发了一篇文章,对统计效度的金标准「P值」提出了质疑,认为P值并没有统计学家所认为的那样可信。


我们暂且把这个问题搁置一下,替P值君问一句:「为什么受伤的总是我呀?是我是我还是我」真要说起个问题,咱们得从统计学的框架说起。


现代统计学的框架


现代统计学两分天下:一分统计描述,一分统计推断。统计书上经常这样表述:统计描述和统计推断是现代统计学的两个组成部分,两者相辅相成、缺一不可,统计描述是现代统计学的基础和前提,统计推断是现代统计学的核心和关键。



统计描述就是给数据拍张快照呗,看看他们长什么样子。我们熟知的均数、中位数就是用来看他们扎堆的位置,扎在什么地方;标准差、四分位数间距等就是用来看他们扎堆的程度,扎得有多紧。当然我们也可以用直方图,箱线图,散点图等统计图形来更为形象直观的查看。


统计推断是用我们手中的样本数据来推断其背后的总体特征。统计推断里有两大块内容:参数估计和假设检验。参数估计就是我们用样本的统计量(如样本均数)去估计总体的参数(如总体均数)。此时,我们可以有两种策略:一种是简单了事,直接把样本统计量当做总体参数,这就是所谓的点估计;另外一种策略就是考虑到抽样误差,我们用一个范围,而不是一个单一的值去估计总体参数,此即所谓的区间估计。而假设检验则是利用小概率反正法思想,从问题的对立面(H0,原假设)出发,假定H0成立的条件下,去计算检验统计量,获得P值,再通过P值来在H0,H1(备择假设)之间做进一步取舍。



既然统计推断是现代统计学的核心和关键,看到这里,你也能体会到作为假设检验的黄金判定标准的P值,在统计学中的地位啦。那具体而言,什么是P值呢?


P值和假设检验


什么是P值呢?按照频率学派的经典套路:

  • 敷衍的人会告诉你:「P值啊,就是P Value,Probability Value,就是概率啊」听完我们想揍死他,你还别笑,有些统计培训班还真这么讲的

  • 老实本分的老师会告诉你: 「P值啊,就是在H0为真的条件下,获得当前样本或者更偏的样本的概率」。听完我们很迷茫啊,看着我们迷茫的眼神,老师无奈的写下「P=Prob(X|H0)」,我们只好无奈且善意的点点头

  • 少有的明白人会告诉你:P值啊,就是在H0为真时,观察到的差异来源于抽样误差的可能性大小


P值就是在H0为真时,观察到的差异来源于抽样误差的可能性大小。听完这个解释,或许我们眼前能闪现一丝灵光。我们以正态分布的Z检验为例简要说明下,不知道不理解为什么那么多的统计教材竟然要以t检验为例来讲假设检验。如果你被他们毒害了,不知道什么是Z检验,请看如下公式:




看不懂?不着急。一步一步来。依据「P值就是在H0为真时,观察到的差异来源于抽样误差的可能性的大小」这一定义,我们假定H0为真,也就是假定样本均数「X Bar」(即X头上抬根杠,微信编辑器什么时候能插入公式啊,只好拟音啦) 就等于总体均数「miu」(拟音),但是实际上,我们利用手中的样本数据计算的均数 「X Bar和总体均数「miu总是有差异的,这个差异就是公式中的分子,但是这个差异缺乏一个统一的度量,于是 我们除以一个 总体的变异幅度(暂且用标准误代替,也就是上图中的分母), 这样就得到一个以总体变异幅度来度量的差异,也就是说这个差异是多个标准误,或者说差了多少个标准误的距离,这个就是我们所说的统计量,Z值。现在在看看Z检验的公式,是否好容易理解多了? 统计量Z值其实就是样本均数和总体均数相差的,以标准误度量的单位量。


那么P值呢?别急。每一个Z值可以对应到一个相应的P值,比如,Z=1.96表示 差了1.96倍标准误的距离,对应的P 值就是0.05。





但是不同的分布,统计量不同,因此难以标化统一,不过P 值却可以,而且在实际操作中,由于计算机统计软件包的发展,P值也很容易获得。 获得P值后,比如,比如啊,P=0.003,我们可以回过头来想:既然我们已经假定H0为真了,也就是(「X Bar」-「miu」)应该没有差异了,但是现在还有Z倍标准误的差异啊! 那现在这个差异是哪里来的呢?只有一个可能的原因:抽样误差。但是现在可以归因于抽样误差的概率很小,只有0.003啊(统计软件计算结果),0.003的概率,1000次也才3次,竟然一次就让我们赶上了,这不太可能吧?是的,确实不太可能。那我们就只能回过头来怀疑我们的根基,我们的原假设H0错了,因此我们否定H0, 接受H1。




这才是我们的假设检验。这才是我们的P值。既然P值是假定H0为真的条件下,我们所观察到的差异来源于抽样误差的概率。这很容易让我们想到,如果H0真的为真,我们因P值<>


I类错误的概率是不是P值呢?To P or not to P, that's a question。 要说起清楚这个问题,还得劳神费心另写一篇:假设检验的前世今生。


P.S.部分图片来自Google搜索。



按: SAS官方在1月15日,北上广三地同时有线下活动,感兴趣的可以去看看。北京这边某人有一个「医学研究里的SAS PROC和SAS 绘图主题的分享」,可以去捧场,或者踢馆!报名:http://club.sas.com.cn/Active.aspx

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
SAS系列16:SAS统计推断(一)
显著性检验
05-假设检验基础(2015研)
统计学基础:一文搞懂“假设检验”
何谓假设检验?其一般步骤是什么?
方差分析(一): 方差分析的基本原理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服