打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
微博
#V光深评# 许多网友向我咨询黄文政老师20年前那篇统计学论文,我把大家的学习需求转达给了黄老师。黄老师在百忙之中专门写了以下文字。希望能够帮助到对统计学理论感兴趣的同学们。

————分割线—————
谢谢翟老师问起我离开学术界时那篇论文的详情。那篇文章是我博士论文的总结和拓展。我博士论文导师Richard Royall收到看完后甚为激动,而我任教所在系的系主任Nan Laird则称之为“tour de force'。论文的审稿时间长达一年,两位评审者中,一位非常正面,一位非常负面,而associate editor偏负面,所以最后没有接受这篇论文。虽然那时我在JASA和JRSS-B上发过几篇理论性文章,但这篇是我最寄予厚望的,花费的时间比其他所有文章加起来都多,所以它被拒绝让我深感失望。接到拒绝信一个月后,我就离开了学术界,之后一直忙于其他事务,未再重新投稿。虽然过去快20年,但我认为文章的要点应该还是成立的,未来如果还有时间和精力,我也许还会考虑文章是否有修改和重投的价值。

这篇文章涉及统计学的一些基本概念。了解统计学的人知道,统计学有三大流派:频率派、贝叶斯派和似然派。这三个流派中,最边缘的是似然派,而我的导师Richard Royall算是这一派的主要倡导者之一。似然派的主要观点是,似然函数充分表达了所有的统计证据,因此所有统计推断应该完全基于似然函数。相比之下,频率派则根据统计模型来估算观察到比实际数据更极端的概率,也就是p值;这个值越小越是模型参数值不满足零假设越强的证据,与此相关的还有置信区间的概念。而贝叶斯派则视参数本身为随机数,在观察到数据之前服从某种先验分布,该派将统计证据表达为根据观察数据修正后的参数后验分布。

似然派对频率派和贝叶斯派有诸多批评。比如,频率派里的p值或置信区间在条件性终止规则等情况下可能导致自相矛盾的解释。又比如,贝叶斯派的参数先验概率分布使用了数据以外的信息,而一般情况下我们也无法定义无信息的先验概率分布。但似然派只有在模型是有限维参数化的情况下才表现完美。当参数维度随数据增长,基于似然函数的估算不一定收敛于真值,即不满足一致性。对非参数模型,我们甚至可能无法写出似然函数。

我那篇文章提出无偏性广义似然函数的概念,也就是说任何一个有关参数的函数,只要它满足我提出的无偏性等式,那么它就可以被认为是一个有效的广义似然函数。我进一步把这个等式扩展到近似形态来定义各阶无偏性。我发现,合理的统计推断最终都可以归结于是否满足无偏性或者近似无偏性。像全似然函数、条件似然函数以及之前难以归类的Cox模型中的部分似然函数都满足严格的无偏性,而广义估计方程等基于非参数模型的推断方法则满足近似无偏性。在非常宽泛的条件下,一阶无偏性蕴含统计量的一致性,即随着在数据增加,统计量收敛于真值,而二阶无偏性则蕴含统计量的渐进正态性,即统计量对参数刻画的偏差近似于正态分布。这些是确保统计推断具有合理性的关键条件。文章可以认为是以单一框架来看待统计学三个流派的一个尝试。

从模型的角度来看,我把对数据的任何参数性刻画都看成广义似然函数。最粗糙的广义似然函数就是数据本身,即视每个数据记录本身为一个参数,将参数耦合起来则是对数据赋予结构的降维过程,而无偏性则确保参数耦合过程的有效性。在我看来,一个统计模型就是一个满足无偏性的广义似然函数,不同模型反映的只是刻画和呈现数据的不同视角,因此不存在模型的对错问题。我将这个态度归结于一句话,即所有模型都是正确的,在无偏性下做出的估算都是有效的。这听起来有点离经叛道,因为现代统计学最基本的态度是所有模型都是错误的。

这个对立体现了不同的认知态度。如果把统计模型看成对研究对象的认知模式,现代统计学所谓所有模型都是错误的态度,与认识外部世界的经典科学观是一致的,也就是说假设存在一个独立于我们观察者的外部“真实”世界,我们的认识可以逐步接近,但永远无法完全掌握“真实”世界。而我的态度则是,既然我们永远无法掌握“真实”世界,我们根本就没有必要模型是错误的结论。

统计模型只是我们描述研究对象的框架,不同模型只是我们描述或者总结数据的不同视角,我们关心的是某个视角是否能帮助我们了解我们关注的问题并做出相应决策。我们可以说这个视角是否深入或全面,但不能说它是对正确还是错误。这里所谓深刻和全面只是反映我们的推断是否充分、准确而简洁地表达了我们对研究对象的认识和观察的数据。将这个看法在时间和样本空间上延展,认识和数据则包括我们对根据模型所做的预测与校验。

这个态度源自我的一个基本理念,就是人类是所处世界的一部分,所以人类永远不应该以全能全知的姿态来看待世界。不管我们的认识多么深刻和全面,我们对世界的理解永远是局域而不是全域的。因此,我们需要接受人类认识的这种局限性,这不是因为我们认识不足,而是我们永远无法自外于这个世界。在终极意义上,这可能源自我认同的中国文化中那种天人合一的观念,也就是我们和我们周围的世界是一体的,因此我们永远不应该以一种外在的,全能全知的视角来看待我们所处的世界。

在2014年,有位朋友曾转发一篇涉及科学思维的文章让我评论。我当时写了一个详尽的回应,因为其思路与我上面提及的相关,所以我把当时的回应略作修改附上,算是对我那篇未发表论文的某种通俗性的注解。

《我们思想的风筝是否需要被无形的手束缚?》
黄文政 2014年9月23日

谢谢你发来的文章。确实,按经典科学思维来理解量子力学可能很反直观,但如果从信息交流的角度来理解则会自然一些。因此,你转发的文章认为信息交流可能才是真正理解世界的钥匙。简单来说,真实世界存在的意义,在于我们可以与其进行信息交流。脱离这种交流,世界存不存在并没有意义。这种思想是非常自然的发展,与我之前提到的我对统计学的基本问题的思考方向是一致的。

比如统计学中的独立同分布是一个基本的假设,在统计学主要定律中无所不在。但要验证这个假设几乎不可能,因为生成数据的联合分布函数需要在样本空间上严格满足一系列等式才能确保独立同分布成立。一个如此关键的假设却不能被验证是一个非常严重的问题。 但如果从我们获得的数据信息角度来看,独立同分布却是自然不过的假设,因为它可以由数据信息的对称性推导出来。

假设一个研究者给了我们11个数字:123, 150, 129, 92, 156, 141, 132, 113, 78, 126, 69,并告诉我们这是11个未成年人的身高(厘米数)。如果这11个数字的顺序没有意义,那么我们对这11个数字所做的任何推断应该与顺序无关。也就是说如果我们把这11个数字顺序重置,那么针对这些数据得出的结论应该维持不变。这相当于假设这11个数字满足顺序置换对称性,而独立同分布则是这种对称性的衍生结果。这意味着,独立同分布是我们根据观察数据所能做的表述。使用这个模型不是因为它正确,而是因为它充分表达了我们对要了解的对象所掌握的信息。

针对上面11个数字,我们可以计算得出均值(119)、标准差(27.123)、最小值(69)、中值(126)、最大值(156)或者任何分位数等统计量,所有这些统计量与数字的排列顺序无关,也就是满足对称不变性。从统计学角度来说,我们可以在独立同分布的假设下来探讨这些统计量的各种性质,并据此判断这些统计量的好坏。

再进一步,假设在这11个测量数字以外,研究者又给了我们11个额外数字,并告诉我们这是之前11个未成年人的年龄,让我们研究未成年人身高与年龄的关系。我们对这11个未成年人的年龄与身高数据画一个散点图,发现年龄大的人身高一般也更高。那么在给定年龄数字之后,我们还能假设数据满足独立同分布假设吗?

大部分统计学者可能会觉得,因为有了更多的数据,原来的独立同分布就不合适了。而我的态度则是,有了年龄数据并不意味着之前使用的模型就是错误的;我们依然可以计算并呈现之前的统计量并得出相应的判断,比如均值是119。我们不能说之前的模型是错误的,只能说那个模型不足以帮助我们来了解这组未成年人的身高如何随年龄变化。

更进一步,在给定年龄数字之后,我们针对身高随年龄的变化是应该使用线性函数,二次函数还是其他形式的函数呢?大部分统计学者的做法是,尝试不同的函数形式,从中找出看起来拟合较好相对又比较简洁地函数形式,并认为这是接近“真实”的模型。而我的态度则是,我们可以使用任何函数,不同函数形式只是我们呈现数据的不同视角。比如,虽然二次函数可能拟合得更好,但我们根据线性函数估算出比如年龄每大一岁,身高平均要高10厘米的结论并不能说是错误的。我们最多只能说身高增长随年龄变化不是均匀的,平均年增10厘米的结论不足以反映这种非均匀性。

有人会问,如果数据显示身高随年龄增加,那么使用一个让身高随年龄萎缩的模型那不就是错了吗?这个说法其实是不对的,因为如果假设的模型强迫身高随年龄萎缩,那么估算的参数就会是空集,而在空集里的任何陈述都没有对错之分。有人还会说,模型是否正确依然是有意义的,因为我们可以比较不同模型的预测结果,那些预测更准确的模型更接近“真实”。这个说法听起来很有道理,但其实只要把所有预测验证结果也视为数据的一部分,那么这个说法与我说的就没有任何矛盾之处。

总而言之,我认为所谓模型正确不正确并没有意义,有意义的是对信息的表达是否充分,以及这种表达具有的结构能否被用来向外拓展而涵盖更广的未知空间。我们可以把“真实”状态视为我们在思维中构造出来的一个极限状态,其最终目的是帮助我们来认识这个世界,并做出相应决策。但如果这个构造出来的极限状态,让我们对信息的表达更繁琐,让我们的理解框架变得支离破碎,那为何不完全放弃这个构造,而从纯粹的信息处理的角度来理解整个认知过程呢?

如果这种“真实”的状态本身无法验证,那么谈论模型的正确和错误本身也就失去了意义。既然可以说所有模型都是错误的,那也应该可以说,所有模型都是正确的,不同模型不过只是我们看待数据的不同视角。

有人会问,为什么不可以把“真实”世界当成一个终极意义的理想模型呢。在这种思维下,“真实”世界至少在理论上是存在的。这种观点的逻辑在于,既然所有的认知都可以表达为模型,为何不能假设存在一个真实的模型,而随着我们针对研究对象的信息积累和对信息的构造变得更加深入而无限逼近这个“真实”世界。这其实是科学主义和理性哲学的基础,也是过去几百年来经典科学领域的主流思想。

但在我看来,这其实是对认知过程强迫性地设定了一个结构。如果我们把对数据的观测和根据观测数据所构造的模型(也就是信息的收集和根据信息来认知外部世界的思想体系)当成一个信息交流的过程,那么我们其实是在假设这个交流过程最终会收敛到一个“真实”世界上去。这意味着,在对外部表述的这样一个广大的可能空间上,我们假设它在无限远处是一个点而不是一个面。

这显然是一个非常严厉的假设,可能是对信息交流和认知程加上了一个无形的枷锁。正是由于这个枷锁的存在,我们目前用来表述物理世界的模型,比如量子场论乃至金融市场机制等变得可能反直观,对相关现象的表述变得支离破碎了。也就是说,我们把一个本来可能是发散的认知过程强制性地设定为收敛的,并在这个基础上来理解世界。做一个简单且直观的比喻,这就像人类思想本来可以在无穷无尽的空间里翱翔,但自己却把思想的终点固定到了一个无穷远处的极点上。如果把这个无限远处的极点比喻成一只牵着线的手,那么我们的思想就成了永远被这只手所牵引和束缚着的风筝。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
回归线三千,我只取这一条 | 协和八
数据挖掘中的统计学方法 - 研发月报
认识最小二乘法
为什么我基于开源包建的模型效果不好?
地质统计学反演中的变差函数简介及模型分类
机器学习必备的数学基础有哪些?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服