打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
统计学杂记 12: 随机实验如何将复杂的研究变简单


异女子特异功能待考证

金标准黄金实验莅危机

2005 年第一场雪,把伊利诺伊大学香槟分校打扮得银妆素裹,一片茫茫。料峭的寒风中,刚刚在那儿做完演讲的我,由陪同的教授、我过去的学生苏珊作向导,参观校园。苏珊特地把我带到一块空地前。空地已完全被大雪覆盖,隐约中见到一块牌子,上面清晰地记载着如下文字:“伊利诺伊大学莫柔地块:美国最早的实验田,建于1876 年。该实验田的结果证明土壤的质量是农业生产率最关键的决定因素。(Universityof Illinois, The Morrow Plots.  America’sOldest Experimental Field Established in 1876. Results Demonstrate that SoilQuality Is a Vital Component of Agricultural Productivity.)”

看到这块牌子和实验田,一种莫名的激动使我一时有些头晕目眩。虽然经常在书中读到农业实验的实证方法并对它的定理和假设烂熟于心,虽然早就知道“分割地块实验”(Split-Plot Experiment)开拓了农业乃至社会行为领域的实验方法和用于方差分析(ANOVA)的因子设计法 (Factorial Design),今天站在这门科学结出的实实在在的果实面前,依然忍不住激动和对前辈大师们肃然起敬。准确地说,是现代农业开拓了随机实验法,那位 20 世纪最伟大的统计学家罗纳德·费雪爵士(Sir Ronald Fisher)在统计科学上的主要贡献都是他在英国著名的农业实验室供职时做出的。

用今天的眼光看,这项始于 1876 年的实验所证明的土壤质量与农业生产率的因果关系似乎很简单。但是,即便是这样一个“简单的”因果分析课题,花去了几代科学家 100 多年的努力,投入的人力物力和消耗的资源不计其数。任何科学假设,没有经验或实证资料证明,它永远只是假设,还称不上科学。今天,由费雪创立的“随机实验法”被称为因果分析的“黄金标准”(Gold Standard)。准确地说,美国食品和药物管理局(FDA)在对新产品认证的时候,如果证明结果的方法有若干种,FDA 只认由随机实验法支持的结果。也就是说,唯有随机实验法才是掷地有声的“黄金标准”。

我们或许不会想到,20 世纪 30 年代,当费雪创立纯随机实验方法的时候,占统治地位的因果研究方法是控制法(也称匹配法)。费雪以前的科学家相信控制:要证明因果关系,研究者必须精确地控制实验室的一切,要让实验组和控制组尽可能地匹配,尽可能地“相像”,这样他们才能把观察到的结果差异归因于实验。研究者要尽可能地控制实验室的一切,如温度、湿度,乃至实验者的心理和情绪。费雪说,要控制这一切,在现实中是不可能的;研究者即便能部分地控制,由此所需要的经济成本也将实验变得不可操作。换言之,控制近乎天方夜谭。所以,费雪说,与其控制一切,不如什么都不控制,即“纯随机”:实验者用纯随机的方法把研究的对象分到实验组和控制组中去,这样,纯随机将使“观察到的”和“未观察到的”干扰因素趋于平衡,即实验组和控制组通过随机而尽可能地相像。在这样的条件下研究者观察到的在结果变量上的差异,可以比较放心地归因于实验或干预,也就是说,这种差异具有统计意义上的“显著性”。

费雪的“纯随机实验”思想见于他的经典著作《实验设计 Design of Experiments》(1935/1971)中。为了说明纯随机的重要性,费雪讲了一个奇异女子的故事。他说,有一位英国淑女声称自己有一种品茶的特异功能:无论茶道师怎样备茶,这位女子只要喝一口,马上就能知道这杯茶是牛奶先放,还是茶叶先放。要证明这位奇女子的特异功能(即她的结果不是猜出来),我们如果用严格的控制法,会将实验做得异常复杂,而且也无法保证结果的精确性。这里有很多因素要控制,比如茶叶的浓度、牛奶的浓度、水温、是否要放糖、糖的浓度,等等。费雪说,用纯随机的方法,就能测试这位女子是否真正具备特异功能。他说,我们可以准备8杯茶,4杯牛奶先放,4杯茶叶先放,然后,我们将这8杯茶次序打乱,用一种纯随机的方式将这8杯茶呈送给女子。由于8杯茶4杯奶先放4杯茶先放,我们可以计算出来,总共有70种准备的方式(即:8样东西每次拿出4样的组合,一共有70种)。如果我们要求这位女子对8杯茶的答案与茶道师准备的方式完全一致,她猜出来的概率只有70分之一,1/70=0.0124,概率非常小(p<>我们拒绝这一假设所犯一型错误(拒绝一个不应该拒绝的假设)的概率小于0.05,我们的结论具有统计意义上的显著性。请注意,以上结论要求女子对8杯茶的答案与茶道师的准备完全一致,这是很难的;如果这位女子真能做到,那末,我们有比较充足的理由相信她确实有这个特异功能。费雪进一步提出,如果我们把要求降低,只要求六杯茶的结果与茶道师准备的方式一致,那么结论就大不相同了。在70种备茶方式中,有17种方式可以让女子的答案做到6杯与茶道师一致。在这个条件下,女子猜出来的可能性变得很大了,这个猜出来的概率是:17/70=0.243。也就是说,只要求6杯匹配,我们拒绝上述虚拟假设犯一型错误的可能性变得很大(p>.05),我们实验的结论在.05的水平上将不再具有统计意义上的显著性

从这个故事中,我们可以看到,纯随机可以将一个非常复杂的任务变得异常简单。这个著名的费雪实验,事实上是一个“思维实验”,没有真正的女子参与品茶;但是,它隐含了当今统计学几个非常重要的思想。除了对随机实验重要性的证明,它揭示了如何做假设检验,如何建立“研究假设”以及与之对应的“虚拟假设”,如何定义统计意义上的显著性。费雪的深刻思想,奠定了现代统计研究的基石。

虽然,在当代因果分析中随机实验法依然被称作金标准,但是科学家们发现,在很多领域,特别是在人文社会科学领域,纯随机是无法做到的:很多时候,将需要接受服务的人安排到没有任何服务的控制组是违背伦理道德的;很多时候,研究者不可能实施社会实验。例如,要研究抽烟对健康的致命影响,研究者就要将研究对象随机地分为“抽烟”和“非抽烟”两组;事实上没有任何研究者可以进行这样的社会实验。从某种意义上说,纯随机实验面临危机。正是在这样的背景下,大约40年前,统计学家(以Donald Rubin 和Paul Rosenbaum 为代表)和计量经济学家(以James Heckman 为代表)开发了现代因果分析方法。这些方法主要用于“准实验quasi-experimental”设计中。在准实验中,由于无法做到“纯随机”,研究者必须用更复杂的分析方法将干扰因素去掉。这些复杂的分析方法,包括样本选择模型Sample Selection、倾向值分析Propensity Score Analysis、工具变量法Instrumental-Variable Method、回归断裂法Regression Discontinuity、定向无循环图法Directed Acyclic Graphs、贝叶斯法Bayesian Methods,等等。

 


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新版白话空间统计(11):ArcGIS中的PZ值标尺
硕士论文写作常用方法——实验法
美国统计学会权威发布:P值应该这么用,学界有错须改正
读书笔记 | 统计学的秘密,不熟不告诉你
社会统计学复习题
喝橙汁健脑?证据还太弱
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服