方法赏析：《人文地理学进展》定量研究方法第二弹之“推断”

【导读】

在某些情况下，统计学中的显著性检验并不适合定量地理学，同样也并不适合其他学科和更为复杂的统计文献。本文主要概述了目前定量推断方法的进展，并考虑了这些方法在人文地理学研究环境中的适用性，对于从事定量地理研究的学者无疑是值得警惕的。

敬请阅读：

Brunsdon C. (2017). Quantitative methods II: Issues of inference in quantitative human geography. Progress in Human Geography, 41(4):512-523. doi:10.1177/0309132516648020

定量地理学家面临的推断问题

在人文地理学领域，传统统计学被用来解决“推断”问题。在该领域，数据分析是通过测量、调查和对各种形式的信息进行探索、分析和建模，进而了解世界。在这个过程中，“推断”是观察前者（数据）的结果，也是对后者（分析和建模）进行演绎的过程，因此被认为是定理地理研究的重要组成部分。

在应用于地理学的统计学方法中，空间统计学占据着举足轻重的地位，该方法对经典的统计推断方法也提出了质疑。通常来讲，地理现象的分布主要有两个假设：1）空间同质性，即：数学的特征在任何地方都相同；2）空间异质性，即：一个地点的事件与其它地点的事件并不关联。数据科学家出于这些假设开始质疑经典统计方法在空间地理学的应用，即“传统”假设检验不一定能回答地理学家的问题，这种现象在原文中被称为“正确的问题，错误的答案”；除此之外，一些学者经常说经典统计学的推断方法被广泛误解，于是开始出现了针对解释流程的探讨（即探讨统计方法的合理运用），而不是机械的应用统计学推断。

经典统计推断的关键思想

（一）以p值为代表的“经典”方法

对很多人来说，最熟悉的统计推断概念是p值，行业内通常是检验p值是否大于0.05。对此，Wickham提出了质疑，他说：在统计系统中，显著与否是基于自变量和变量之间的相似性，一般是使用特定的统计参数度量（编辑注：可大致理解为绕开显著检验的特殊方法）。这样的推断方法避免了依靠直接的证据来确定关系。

图1 Regina Nuzzo在Nature上批判p值滥用的文章，用数据和实例证实了科学研究中确实存在p值统计学显著结果不可重现等问题，并借此呼吁重视贝叶斯方法。

（二）p值的作用？

p值衡量的是无效假设的合理性，该参数就自身而言并不直接暗示任何关于代替假设的含义，对于一个给定的零假设（H0），有很多的检验方法（方法的选择主要取决于统计量的选择），但是在空间滞后和空间误差模型中，检验空间参数为零的零假设是完全可能的，两种检验都拒绝H0。于是人们可能会得出这样的结论：存在某种过程，但对于哪种空间过程模型可能适用却知之甚少。所以在某种意义上，选用p值检验仅仅是理解潜在空间过程的第一步。以司法系统的统计作为类比，如果我们知道对被告的指控是什么，这是很好的，但是如果一开始不知道，就无法确定犯罪是什么。上面的测试筛选出一个事实，但无法确定什么样的空间过程正在发生。

（三）多重显著性检验

使用多重显著性检验对于地理学家来说尤为重要。研究的目的不是用数据来评估一个单一的假设或确定一个特定的模型，而是通过观察一些地理位置来确定与正常情况不符的地方，以便于回答类似这样的问题：是否有某些地方的某些疾病的发病率明显高于人均水平？

更广泛的推断问题

在这一节中，作者回顾了经典推断的替代方法，展示这些方法的使用情境，以及他们的优缺点：

（一）探索性数据分析

如今人们普遍利用现成的统计工具，输入数据，按下按钮，软件则提供p值，而不充分考虑显著结果的意义。然而，有更广泛的辩论质疑显著性检验本身的性质。在过去的一个世纪里，统计理论发展出了许多方法，但过分关注显著性检验。与之相对比的是心理学的教科书和课程却从来没有教授过统计学的应用，包括描述性统计、Tukey的探索性方法、贝叶斯统计、Wald序列分析等。地理学中广泛应用的是描述性统计分析。然而，Tukey提出贝叶斯理论和决策理论在地理数据分析中都有潜在的应用，例如，Willmott和Robeson等人修改了Tukey的箱图，以探索地理数据。图2是一个经过修改的箱图，每个观测值都由与其相关的实际陆地面积加权。在原文中，作者还展示了两个应用推断方法的定量地理研究案例，限于篇幅限制，编辑不做过多介绍。

图2 人口加权方框图显示了2011年人口普查中爱尔兰选区采用宽带的家庭百分比的标准方框图。考虑到人口权重，地理箱线图略高于标准箱线图的建议值。

（二）贝叶斯方法

上面提到的探索性数据方法提供了一种不太正式的推断方法，在没有事先提出假设的情况下特别有用（考虑显著性检验程序并不是唯一的方法）。另一种被广泛采用的是贝叶斯方法。例如Rohde等人展示了贝叶斯推断在分析城市火灾发生模式的应用。该方法最有争议方面是在分析中包含先前的理念——这可以被看作是在客观的方法中添加了主观因素。虽然贝叶斯方法和经典方法在数学上有许多相似之处，但从哲学上讲，它们之间的概率的含义有根本的不同。由于这种区别和其他的一些因素，贝叶斯方法可以被看作是拓展了分析技术的组合，而不是取代现有的经典方法。也有一些学者认为，贝叶斯推断的主观因素是必要的：“贝叶斯统计将主观因素放在开放环境中，并置于数据使用者的控制之下，从而尊重主观因素”。

图3 频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上

经典推断中也含有一些主观因素，比如选择回归模型中要包含的变量，或选择调查中的抽样方法。通过明确包含主观先验分布，可以更开放地处理这一问题。其他人通常使用非信息先验知识（通常是均匀分布）来表示没有先验知识的状态。在这种情况下，后验分布通常类似于经典理论中的似然函数，尽管这两种方法的意义有显著差异。贝叶斯方法的一个关键的实际优势是能够使用基于模拟的方法，如马尔可夫链和蒙特卡罗方法生成从后验概率中抽取的随机数，用于可能无法分析评估的相对复杂的模型。

（三）赤池信息准则

赤池信息准则（AIC）中有一种截然不同的推断方法。该工具的一个关键目标不是关注参数估计或假设检验，而是模型选择。使用最大似然法拟合多个模型，每个模型的AIC计算如下：

式中，L是模型的似然函数，k是参数数量。一般来说，AIC越低表示模型越好。该准则是从信息论的角度推导出来的，并试图通过近似每个模型生成数据的过程来估计信息损失。

没有一个模型被认为是“真实的”，其目的是通过选择适当的模型来减轻信息损失。Hirschfield等人提供了一个使用AIC（以及其他推断工具）的例子，将许多空间模型应用于城市犯罪率的模式。除了简单地检测某种形式的空间过程在起作用外，这还允许在某种程度上比较哪种空间过程最有可能发生，并以此作为一种方法，以便更好地了解驱动犯罪模式的潜在社会过程和人类行为模式。

（四）图形推断

最近发展的是图形推断的概念，他基于这样一个想法：如果一个统计模型封装了一个真实世界的过程，那么从中生成的数据应该看起来像真实世界的数据。因此，从特征模型模拟的房价地图应该看起来像真实房价地图。虽然精确定义是难以捉摸的，但一种方法是使用几个被试来评估相似性。受试者查看大量地图（或其他图形显示），其中一张是使用真实世界的数据创建的，而其他的则是模拟的。每个人都被要求确定哪张地图是“真实”。如果模型不能很好地反映现实，那么高比例的被试应该很容易识别现实世界。

这种方法虽然在某些方面很新颖，但其框架与经典的假设检验非常相似。如果要求观察者确定不同项目的调查是一项随机试验，并且使用了一个无关地图但更可能被选择的假设的显著性检验，那么结果的有效性不亚于任何其他有充分依据的试验。然而，仍然存在方法上的问题。当在地图上选择一个特定的符号时，是不是有些图案比其他的更具视觉冲击力？在这种情况下，虽然判断可能是有根据的，但可能不是很有力，具有很高的假设检验第二类错误的可能。此外，是否存在与“真实”地图位置相关的偏差？尽管需要考虑一些方法上的问题，但这种方法还是有希望的。它允许对复杂的模型进行评估，因为需要对所建模的过程进行模拟，而不是采用完全最大似然法来进行经典假设检验。

（五）机器学习

机器学习方法虽然计算性很强，但与经典的贝叶斯、AIC和图形推断方法不同的是，它不需要生成模型，即数据的统计模型，概述了可能生成数据的随机过程。机器学习更多地关注于使用算法来检测数据中的模式，而不是校准模型或进行假设检验。这种对模式检测的强调往往导致对预测（寻找模式响应评估和预测变量数量）或探索（寻找更普遍的模式）的更强烈关注。此方法与其他列出的方法之间的区别在于构成模式的一般性。如Gahegan所述：推断统计使用观察条件获得分布模型的形式，通常是由数据分析员先验知识提供。相比之下，许多机器学习技术仅使用从数据中收集的证据构建分布模型，即它们是数据驱动的。这种数据驱动是优点也是缺点。危险在于这样一种观点，即这会导致“理论的终结”（在定量方法第一弹中有具体描述 方法赏析：《人文地理学进展》定量研究方法第一弹之“复制量化研究”）这种世界观中的推论仅仅是确定数据中的规律性，而不是对它们是如何产生的提供任何解释。这种方法并非没有招致批判，然而，即使考虑到这一点，机器学习技术的应用仍然可以发挥一定的推断作用——也许在识别模式时，可以寻求模式的解释。这里的推断可能扮演着假设发生器而不是假设评估器的角色。

图4 毫无疑问机器学习应用了大量统计方法，但被人诟病的一点是理论证明不严谨

结论

本文描述了定量地理学的推断工具，从非常传统的（如显著性检验）到本文献写作时出现的（图形推断）。许多定量地理学教科书强调传统的方法。然而，新的方法正在产生，在统计文献和其他文献中，诸如显著性检验等公认程序的普遍应用正在受到质疑。研究定量数据的地理学家及时地对此进行评估，并考虑目前正在开发的推断工具中哪些（如果有的话）最适合他们的需求。一些新的方法提供了希望。一个主要的推断任务是区分哪种空间过程是最合适的模型。对空间独立性的零假设的检验本质上是对实际存在地理过程的情况的筛选。但对许多地理学家来说，一旦这种基本情况确立，一个更有趣的问题是：“发生了什么样的地理过程？'或’某些空间模型是否合适应用？”

这里概述的一些推断方法可能比其他方法更合适。例如，可以使用图形推断方法将给定空间过程的模拟数据与实际数据进行比较，而不是没有空间模式的模拟数据。经典的推断过程可以用来检验复合模型，它包含了多种过程的组成部分。例如，一个同时具有空间误差和空间滞后项的模型，这两个系数都可以测试——尽管模型复杂性的增加会影响参数的抽样分布和所涉及测试的假设检验第二类误差。有些新的方法可以用来回答不同类型的问题。AIC似乎最适合模型选择问题——“一组候选模型中哪一个最合适？”但图形推断也可以解决这个问题。总之，这是一个呼吁地理学家帮助塑造空间数据推断工具的发展，通过更批判性地审视现有的方法，并考虑如何调整它们（或开发全新的方法）以最好地回答地理学中出现的问题。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。