统俗讲义之

1. 何为‘统计功效’？

统计功效，是用来描述，在你的实验研究中，你的统计检验正确的‘拒绝’你的“零假设”（Ho），的概率（这里概率的原英文是likelihood，译作可能性，但个人决定用概率更直观描述统计功效是个啥。）在这概念里又提出了些名词，比如“零假设”，‘统计检验’，会在下面逐一解释。

1.1 何为“零假设”？

“零假设”应该是个被验证过或被大多数人接受的，保守的，结论。它是个认为世间大多数操作都没啥卵用的假设。比如，新药并没有卵用；新流程并没有卵用。严肃地说，就是，假设：新药效果并不比已知旧药好；假设：新流程并不比当前流程更有效。简言之，一切“零假设”都是“然并卵”——也就那样，并没啥卵用。这多少也有些惯性定律的影子，如果你没有足够的影响力，你即便你以为自己用了力，改变了什么，但其实也影响不了大局。但如何证明你有没影响大局，就需要统计检验——认真地比较一下。

1.2 何谓‘统计检验’？

‘统计检验’简单说就是根据适用的统计理论，（比如要比较正态分布的数值得用t检验；比较百分比或者计数，得用卡方，等等。很多高深理论，真得是数学达人才能游刃有余地搞出花。普通人就根据文献和参考资料重复方法吧。），比较你的实验组和对照组，看你实验组出现不同于对照组结果的几率，是否大到足够被‘世人’承认——“嗯，这么多情况都出现了不同，那它俩确实是不一样！”。这里的‘世人’，是指领域里传统的、经典的共识。多大差异算‘足够大’？因研究尺度而异，有些领域认为p<0.05，有些只接受p<0.01。至于怎样算出p<0.05，请参考标准教科书。

回到怎么算统计功效上。

2. 两类无法避免的检验错误。

统计检验的结果，比较于“零假设”，会有四种情况：

2x2表	“零假设”是对的	“零假设”是错的
接受“零假设”	2.1 接受对的（这没毛病，1-Alpha）	2.3 接受错的（Type II Error，Beta Error）
拒绝“零假设”	2.2 拒绝对的（Type I Error，Alpha Error）	2.4 拒绝错的（这也没毛病，1-Beta）

即：

2.1 “零假设”是对的，而你的检验结果也接受“零假设”的说法；（这没毛病）

2.2 “零假设”是对的，而你的检验结果却不接受“零假设”的说法；

（即所谓的Type I Error，一类错误，Alpha错误）；

2.3 “零假设”是错的，而你的检验结果却接受“零假设”的说法；

（即所谓的Type II Error，二类错误，Beta错误）；

2.4 “零假设”是错的，而你的检验结果也不接受“零假设”的说法；（这没毛病）

统计结论上一向保守的态度，让我们倾向于相信“零假设”，毕竟人家在被验证为错误之前，还是被广大人民群众所接受的。所以，即便“零假设”本质上是错的，在被推翻之前，我们也暂时相信“零假设”，不轻信新观点。所以我们在两类错误里，“宁可犯二，不争第一。”
其中要注意的是，虽然常用2x2表格表述，好像算sensitivity/specificity, ppv/npv的格式，但其中的 Beta Error概率（Beta Probability），是在零假设本身错误的前提下，你接受了它的概率。同样，Alpha Error概率（Alpha Probability），是在零假设本身正确的前提下，你的检验却拒绝接受它的概率。
在这里，Alpha + Beta 不一定等于 1（基本上除特殊情况外都不等于1，因为根本就是两码事），既可以大于1，也可以小于1。这个曾一度让我混乱，总觉得a+b<=1，如果你没有啥混乱的，就不用细究了。
有了以上概念，那么，统计功效的本质就是：1 - Beta ！
就是当“零假设”本身错的时候，你正确地拒绝了它的概率；相当于，你的检验，在 1-Beta 的概率下，“正确”地拒绝了零假设，正确地得到“统计上有显著差异”的结论！就是这么简单粗暴！——说它粗暴，是因为你即便知道了以上全部概念，你还是不会在具体情况中算它。下面举个简单例子，如何算Power：

3. 实例：

（引自网络）：已知常规血铜浓度平均值是：8.72 μmol/litre，标准差是：1.3825。现在，有4个病人血样，血铜浓度平均值是9.59，问：有多大可能性，这四个病人的血铜浓度，在统计意义上真的不同于常人。

这个问题中，“常规血铜浓度平均值”就相当于是你将要比较的零假设：假设全人类的正常人的血铜平均值就该如此，分布在相应的几个标准差范围内。虽然没谁能得到全人类的平均血铜浓度值。另外，计算这个问题还要涉及到：
3.1 Z-检验（请暂且当成这类问题就该用Z检验，原理上暂不在此解释）；
3.2 单尾检验还是双尾检验（这涉及到在生物上，血铜浓度是对称分布呢（有时候只是双向开放即可），还是非对称分布（有时候指只是单向开放）：对称的用双尾，不对称用单尾）；
3.3 Alpha的选择：就是在整体分布中，出现某个跑偏的值，通常出现在尾端，零假设认为那个跑偏的值是合理的，并且零假设的这个判断是对的，而你在检验的时候，却认为这个跑偏值是不合理值，的概率。（绕么？）就比如，看到血铜浓度=1.0，零假设说这是正常的血铜浓度范围，而你说这不正常——零假设是对的，你却在检验中把血铜浓度=1.0归结为异常，这种情况的概率，就是Alpha，是一类错误，我们要避免的。所以我们常把Alpha设成很小，比如0.05，即5%概率下，允许我们犯这类错误。而且，如果是单尾分布，我们把这5%的概率都允许在一个尾巴端；如果是双尾分布，我们则把这5%平均分到两个尾巴端，即每边尾巴允许2.5%的概率出现这种错误。（常说的p<0.05，实际是说当p<Alpha(=0.05)时，统计结果有显著差异。）
所以，上面这个问题，在检验双尾的情况下，要这么算：
Power = P( Z > 1.96 − (9.59 − 8.72) / (1.3825/√4) ] + 1 − P[ Z > −1.96 − (9.59 − 8.72) / (1.3825/√4) ]
其中，P代表概率，即当查Z值表时，Z大于1.96 − (9.59 − 8.72) / (1.3825/√4)对应的概率，加上，1 减去 Z值小于 −1.96 − (9.59 − 8.72) / (1.3825/√4) 的概率——即是双尾分布下，该问题的Power。
其中，1.96，即在允许Alpha=0.05，数据标准正态分布时（每边2.5%），的Z值。（它相当于一个常数，在Alpha不同，单双尾分布不同时，它会不同，但基本就是那几个数，可以记住。）
所以，经过计算和查表，上面的 Power = 0.2415 + 1 − 0.999356 = 0.2421，即，有24.21%的概率，你用4个人的样本就可以“正确”地断定这4个人的血铜浓度是否异于常人。这个Power是很低的。所以，要增加样本数。增加至多少？如果你明白上面的原理，设定好Alpha，知道零假设的平均值，标准差，还有你目前样本的平均值，还有你期望的Power（比如80%），反过去推算样本数即可！
能力有限，时间不足（写这么个玩意儿用了我3小时！），暂且写这些，恳请各方大家指正纠错，这也是我自己学习长进的过程。叩谢！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。