学术探论丨帕特里克·Ó. 雷根：人口普查中语言水平数据的测定问题[转发]

语言战略研究

（转自“语言战略研究”公众号）

做语言资源保护公众号不容易，每天更新公众号更不容易，而每天提供新语料尤其不容易。很多读者还没养成打赏习惯，提倡每个月打赏一元钱，积少成多，我们的事业就有希望。谢谢各位！

朱自清|《匆匆》

01·

本期作者|帕特里克·Ó. 雷根

爱尔兰都柏林三一学院荣誉教授

主要研究方向为

语言调查研究、语言人口学、语言规划和政策分析、小族语言

林语堂|《人生自然的节奏》

02·

何山华（译）

扬州大学副教授

主要研究方向为

语言政策与语言规划、外语教育

沈从文|《时间》

03·

方小兵（校）

南京晓庄学院副教授

主要研究方向为

语言规划学与术语学

傅雷|《

人口普查中语言水平

数据的测定问题

关系》

帕特里克·Ó. 雷根1，

何山华2（译），方小兵3（校）

1. 三一学院　爱尔兰　都柏林　999015；

2. 扬州大学　外国语学院　江苏　扬州　225127；

3. 南京晓庄学院外国语学院江苏南京 211171

提要

语言人口学是一个跨学科的研究领域，在研究方法和数据使用上一般借鉴人口学、社会学和语言学等学科：其基本方法是进行大规模调查；所采用的数据大多来自人口普查和大范围调查。尽管在学术研究和政策调研中，与语言相关的普查和调查数据得到了广泛应用，但其方法论基础尚未得到系统评估。人口普查机构在将社会语言类专题纳入调查问卷时，会根据需要采用专门测定手段，但他们很少描述这些手段是如何开发出来的。人口普查中与语言相关的问题会采用不同的表述方式、问题形式或答题方案，这些差异所带来的问题使普查数据在信度和效度上都受到质疑。本文旨在研究人口普查中有关语言水平测定问题的设计和措辞方式对受访者的影响，案例来自爱尔兰共和国和英国北爱尔兰地区对于爱尔兰语的一系列普查。本文的分析借鉴了前期相关研究成果，不过也基于近年来调查方法和应用语言学研究的理论发展，对前人探讨范围有所扩展。

关键词

语言人口学；调查方法；语言水平问题；人口普查；爱尔兰

一、引言

语言人口学是一个跨学科的研究领域，在研究方法上一般借鉴人口学（Rallu，Piché & Simon 2006）、社会学和语言学等学科，并采用这些领域的成果和数据。作为人口学的一个分支，其基本方法是进行大规模调查，而非像民族志那样进行参与式观察。该领域所采用的数据大多来自人口普查和大范围调查，而这两种数据采集方法密切相关，两者都追求：

（1）标准化的测定方法，即对所有受访者采用相同的调查方式以确保所有个体的信息具有可比性；

（2）广泛覆盖目标人口（如人口普查）及该人群可靠的、有代表性的样本（抽样调查）（Fowler 2014 ：3）。

尽管人口覆盖率有所不同，但典型的人口普查问卷与一般情况下邮寄调查和网络调查中使用的自填问卷在很大程度上是一样的，这一点在当前社会学文献中也是得到认可的（例如Dillman（2000 ：288~322）“政府实施的家庭和个人调查”一章）。

采用人口统计学的方法研究社会之中的语言（有时也称为“人口语言学”）时，语言普查或语言调查中对语言水平的测定，一般被作为一个因变量予以考察，要考虑源数据中所有的社会人口变量背景（de Vries 1990）。在社会语言学文献中，对于语言的人口统计学特征的分析主要属于费什曼所指的“宏观社会语言学”（Fishman 1985）或“全局社会语言学”（McConnell 1997）等研究领域。这些研究领域包括社会双语和多语现象、语言接触和语言传播、语言维持和语言更替以及语言规划。上述研究已产生了大量与语言相关的数据，覆盖了很大的地理范围，而且其中有部分也具有相当的历史深度。

尽管在学术研究和政策调研中，与语言相关的普查和调查数据得到了广泛应用，但其方法论基础尚未得到系统评估。DeVries（2006 ：61）曾有总结，认为关于在人口普查中如何针对语言情况设计问题仅有“少量的”“分散的”和“难以获取的”研究。正如Starr（1987：7）多年前所述，虽然人口普查在人口统计研究中“经常被用作一种分析手段”，但其本身“很少成为分析的对象”。这一情况至今没有改变。

本文认为，人口普查机构在将社会语言类专题纳入调查问卷时，会根据其需要采用专门的测定手段，但他们很少描述这些手段是如何开发出来的（Heath & Martin 1997 ：71），Bulmer（2010：220）将其称为简单的“操作定义”，相关解释只是将普查问题中有关的表述重复一下。在与语言相关的人口学研究中，对于诸如语言水平等关键的社会语言学概念，仍然没有被普遍接受的测定手段。该领域的文献中常会探讨由于不同的表述方式、问题形式或答题方案所带来的问题（例如Stevens 1999 ；Jones 2005）。正如 Heath & Martin（1997：85~86）讨论一般性调查研究时所指出的，本文认为需要对近年来人口普查中采用不同测定方法所带来的后果进行更为系统的研究，包括所获数据的信度和效度，并在此基础上为今后的人口普查研究提供指导。

因此，本文旨在研究人口普查中有关语言水平测定问题的设计和措辞对受访者的影响。不过，单篇论文的篇幅无法涵盖所有相关的理论问题，也无法考察全部现有数据。本文仅讨论一个社会语言学概念，即语言水平的普查手段，案例来自爱尔兰共和国和英国北爱尔兰地区对于爱尔兰语的一系列普查（Ó Riagáin 2018 一书对本文提出的问题有更为全面的讨论）。

本文的分析借鉴了前期相关研究成果，不过基于近年来调查方法和应用语言学研究的理论发展，对前人探讨范围也有所扩展。

二、人口普查中对语言数据的早期考察

人口普查是人类历史上最早的社会调查形式（Hakim 1985）。尽管早有先例，但现代形式的人口普查大多始于19世纪初（Baffour，King & Valente 2013 ：408），主要是为了向政府提供可靠和准确的人口规模及地理分布信息，当然也包括其他人口和社会经济信息。早在19世纪中叶，人口普查问卷就开始纳入有关受访者语言的问题（例如 Lieberson 1966 ；Kominski 2012 ；Ó Gliasáin 1996）。目前，在官方人口普查中列入语言相关的问题这一现象已较为广泛，尽管还并不普遍。Christopher（2011：536）对 71个英联邦国家或曾属英联邦国家的人口普查进行了调查，发现有37个国家（占52%）纳入了一个或多个关于语言的问题。这37个国家包括英国、爱尔兰、印度、南非和加拿大等。美国在每十年一次的人口普查中纳入语言问题已有一百多年历史（Stevens 1999），苏联所有的人口普查都包括关于“母语”和“其他语言”的问题（Silver 1986），而大多数后苏联国家和独联体国家都延续了这一做法（Silver 2001）。

对人口普查中的语言数据进行批判性分析始于 20世纪60年代。早期的社会语言学文献中有一些论文讨论了人口普查和大规模调查中收集语言相关数据时所遇到的方法论问题（如Lieberson 1966 ；Fishman & Terry 1969），但在那之后对这一主题的探讨相对较少，且分散在多个学科领域（de Vries 2006 ：616）。尽管现有研究关注的范围相对较小，我们仍可以总结出几种不同的研究策略。

第一类研究基本上是描述性的，只是对一些国家的人口普查问卷进行分类和比较——通常是以列表形式对比——以展示人口普查所涵盖的社会语言学话题（例如Courbage1998；Poulain 2008；Christopher 2011）。这类研究的目的在于比较，而且确实涉及了普查问卷的内容；但其主要感兴趣的是普查问卷中纳入的社会语言学话题，并不是所使用问题的措辞和形式。

第二类研究也主要是描述性的，不过其重点已不是所涵盖的话题范围，而是问卷中问题的细节。此类研究中有不少是对历年人口普查语言问题的措辞和形式变化的追踪。由于这些研究更为具体，因此其比较的范围相对第一类研究要更小，往往仅限于一个国家的普查数据。例如，Stevens（1999）描述了20世纪美国人口普查中语言问题的变化。Higgs，Williams & Dorling（2004）则回顾了之前50年英国人口普查中有关威尔士语问题的变化。Chiswick & Miller（1998）对美国和加拿大人口普查中的语言问题进行了比较，不过这类对两个或两个以上国家的语言普查问题以及普查数据进行的比较相对少一些。

第三类研究与本文最为相关。这类研究通常在普查前或普查后采用大规模调查获取语言数据，以印证人口普查中语言问题的调查质量。他们先使用普查问卷中的问题对随机选取的受访者进行提问，然后根据其回答追问更多有关语言水平的问题。研究者拿使用普查问题获得的数据与随后补充问题获得的数据进行关联比较，以揭示受访者如何理解普查问题；也有研究对这一设计进行扩展，要求受访者完成一个或多个语言测试，将其得分与普查答案进行对比（相关案例可见 Fishman & Terry 1969 ；Kominski 1989 ；Chiswick & Miller 1998 ；Siegel，Martin & Bruno 2001）。此类研究的一般结论是，“普查中语言问题与后续相关问题的答案间存在高度的相关性和一致性”（Kominski 1989：4），Chiswick & Miller（1998：883）证明具有“高度一致性”。换言之，语言普查数据虽然并不完美，但研究人员认为这些数据为全国人口的语言水平提供了有效的估测。

然而，有一项较近的研究在进行了大量的原创性分析后（Edele et al. 2015），得出了更有依据的结论。在对大规模调查和人口普查中常用的“典型”自测型问题与“可靠”的心理测试进行比较后，Edele et al.（2015：112）认为两者“相关性仅为中等”“主观性评测似不足以测定语言水平”。尽管受限于其调研对象的年龄范围（青少年）和自估型问题的数量，该项结论只是暂时性的，但是正如作者所指出的，确实需要在更广泛的社会、人口和国家背景下，对其他自估型问题和语言测试进行更多研究。

除了上述初步结论，还有一点值得注意。在前述研究中，虽然研究方法都是非常关键的部分，但方法论问题却很少得到重点讨论。这些研究主要关注具体普查问题的一致性、有效性或有用性，而未探讨不同问题形式对受访者答题的影响。此外，早期的研究大多在美国、加拿大或澳大利亚进行。本文的目的之一，就是对当前有限的语言普查研究进行扩充，对英国和爱尔兰人口普查中爱尔兰语的系列调查数据进行详细分析，提炼其独有特征以及与其他语言普查共有的特征。其次，本文的研究也将人口普查数据与其他调查数据源进行比较，试图通过借鉴近数十年来关于调查问题设计方法的研究成果，对语言普查问题的讨论范围予以拓展。

如今已有大量关于调查中问题和问卷设计方法的文献（较近的现状梳理，可见 Krosnick & Presser 2010）。关于问题和问卷形式如何影响调查结果，针对调查方法的相关研究正在总结出越来越多的形式特征（Schaeffer & Dykema 2011 ：909）。这些特征包括两个方面：一是问题的主体部分，即给出题干并提问的部分（Smith 2003 ：70）；二是应答选项，即记录受访者答案的部分。一些次要问题则包括问题的措辞和应答选项的分级。然而，Alwin（2007：167）指出，所有这些都与问题形式有关，即问题本身的形式特征。此外，他指出除了上述这类问题的形式特征，还有一个方面值得研究，那就是如何将单个问题组合成问卷。他认为，关于问题上下文的某些方面值得关注，因为它们可能会对受访者的答案产生影响，其中包括如何将问题分成不同组别。

除了问题的形式和语境，Alwin（2007：13）等（其他如Cohen 2008 ：633）还探讨了让受访者报告其他人的信息（代理报告）和由受访者直接回答本人信息（自估报告）对于数据质量的影响。这是所有人口普查数据的一个关键问题，而不仅仅是一个与语言话题有关的问题，后文将予以具体解释。

最后，在考虑人口普查中对语言水平的测定问题时，也应参照语言测试领域对于语言能力概念的界定、描述和测量，尽管两者在实质关注以及理论和方法上都存在较大差异。语言测试领域确有一些与本文密切相关的成果，其中之一是越来越多的大规模语言测试：多区域和多国家参与设计和管理的国际考试和测试实践（Kunnan 2008）均涉及非常大的数据样本。第二个值得关注的发展趋势是，语言测试中越来越多地使用自我评估问卷，有时在特定情况下还用这类问卷替代正式的语言测试（Oscarson 1997）。在针对人口普查开展的研究中，其核心问题是受访者能够在多大程度上对自己的语言水平做出准确和有效的判断。

尽管上文回顾的文献指出了多条研究线索，但我们的重要任务乃是将上述有关方法的研究成果应用于语言普查中具体的“水平测定-概念界定”问题（Blalock 1979：884）。本文无法探讨所有相关问题，只是对少数具有重要方法论价值，且可以在较短篇幅内进行讨论的问题进行探讨。

其中包括：

1.在人口普查数据中代理报告的可靠性如何？

2.人口普查中的是非两分型问题如何影响受访者的回答？

3.如果将是非两分型问题嵌入一组相关问题中，是否会影响测定的信度？

4.与大规模语言测试相比，人口普查中的语言水平概念如何界定？

三、数据来源

本文所用数据主要来自爱尔兰和英国两地的人口普查。在爱尔兰共和国，从1926年到1946年，每十年进行一次人口普查；从1951年起每五年进行一次人口普查（1976年和2001年除外）。在1981年之前，大多数（但不是全部）人口普查问卷都会询问关于爱尔兰语水平的问题；1981年之后则每次普查都有此类问题。因此，自1926年至2016年期间，除了1946年至1961年之间有15年的间隔外，人口普查中每10年至少会出现一次语言水平的问题。人口普查出版资料一般专辟一章或单编一册，来描述爱尔兰语水平问题；本文所使用的统计数据取自于这些出版物。

在英国北爱尔兰，1926年和1937年分别进行了人口普查。由于战争的原因，直到1951年才重新开始人口普查，此后每十年进行一次。北爱尔兰的人口普查直到1991年才纳入关于爱尔兰语水平的问题，后来的人口普查（2001年和2011年）都保留了这一问题。本文有关这些普查的数据是从公开出版物中获取的。（北爱尔兰官方人口普查和调查机构（NISRA）在实际上和法律上都是一个独立机构，但它与英格兰、威尔士和苏格兰的类似机构有着密切的联系；因此，如果不参考英国更广泛范围内其他地区的人口普查，就无法理解其调查方法。）

在接下来的分析部分，本文使用了几个抽样调查结果，试图对人口普查中获得的语言数据进行验证评估。在爱尔兰共和国，1983年至2013年期间，进行了一系列全国范围内的调查，要求受访者对其爱尔兰语水平进行分级排序评分，然后在访谈后期再问这些受访者，在本次调查前的那次人口普查中，他们关于语言问题是如何作答的。本文选取的调查样本都比较大（平均样本量约为1000 人）；抽取的样本是与人口普查重合的成年人口群体；受访者系随机抽取，除少数例外，均在其家中进行“面对面”采访。所有调查均由声誉卓著的专门从事现场调查的机构进行。本文使用的数据都是从这些大规模调查的公开报告中获得的，或者通过对其数据文件重新加工得到的。

需要强调的是，本文的目的仅是评估人口普查研究中语言水平测定的方法论问题。因此，爱尔兰人口普查（和调查）结果所反映的许多政策和社会语言学问题均未讨论（关于这些问题的讨论，可见Ó Riagáin 1997 ）。

需要交代的是，爱尔兰语使用者——无论这里“使用者”如何界定——在爱尔兰共和国和英国北爱尔兰都是少数，在北爱尔兰可能更是如此。在这两地，将爱尔兰语作为童年家庭语言（或母语、第一语言）来习得的人很少，其比例远远小于将其作为第二语言学习（通常是在学校）的人。因此人口普查中使用的语言问题，便需要考虑如何测定爱尔兰语的第一和第二语言使用者的水平。关于爱尔兰语普查的案例研究在这方面所提出的方法问题，便与其他语境下的相似问题具有可比性，尽管那些语境中的基本政策问题会有所不同。

四、人口普查中的代理报告

我们将人口普查归为一般性调查的一种，但需要注意在进行家庭调查时，人口普查和抽样调查这种差异是由人口普查的执行管理方式所导致的。查表或调查在传统人口普查中，法律只规定要求一个人——户主或普查当晚在场的任何成年家庭成员——回答有关所有家庭成员的问题。在有关方法研究的文献中，当受访者代为报告其家庭成员或社会关系中其他人的信息时，被称为“代理报告”。因此，在有一个以上居民的家庭中，人口普查报告可能包括了一个家庭成员的自我报告数据和为其他家庭成员提供的代理报告数据。这一区分很重要。现在有为数不多但正在不断增加的研究（Moore 1998 ；Sakshaug2015），对普查和一般调查研究中代理报告数据的信度和效度提出了质疑。争论的焦点不是所使用的问题类型或其形式上的特征，而是信息的来源。“由于代理应答者的视角和记忆内容迥异于调查的目标对象，因此代理应答可能会对调查中的测定误差产生影响”（Cohen 2008 ：633）。一些有关调研方法的研究表明，代理报告通常是“大胆猜测”或“根据授意猜测”或仅仅是估猜的结果（Tourangeau，Rips & Rasinski 2000 ：65 ～ 67）。此外，当问题的性质主观性较强而非客观且可观测到时，代理报告的信度要更低（Stafford 2010 ：765）。因此，在人口普查中使用代理报告收集的数据所存在的问题，是不应被忽略的。然而，语言普查数据中存在的这个问题几乎被完全忽视了。在一般做法中，代理报告可能造成人口普查数据偏差的问题通常被回避了，大多数分析者将普查结果作为客观的数据。

代理报告的问题无法直接通过人口普查数据进行分析，现有数据也无法将自我报告和代理报告的数据进行区分并比较，因此只能依靠平行调查的数据。有一些大规模抽样调查也收集代理报告的数据，但会将自我报告和代理报告数据区分开以供比较。例如，爱尔兰共和国1993年的一项调查中，将已婚男女的自我报告结果与其伴侣所做的代理报告结果进行比较（有关调查详情，见Ó Riagáin 1997）。在这项调查中，受访者需对其本人及其配偶或伴侣的爱尔兰语水平进行打分，共有6个等级，从“完全不会爱尔兰语”到“母语水平”（完整等级见表1）。

从表1可以看出，已婚男性自报的爱尔兰语水平与其女性配偶/伴侣所报告的水平几乎相同。换言之，已婚男性的自我报告数据和代理报告数据几乎没有区别。然而，同一调查中关于已婚女性的类似数据却不符合这一模式，如表2所示。

通过比较可以发现，代理报告中已婚女性爱尔兰语的水平低于其自我报告的水平，尽管这有些令人困惑。有39% 的已婚女性受访者对自己的爱尔兰语水平自视甚高，评定为较高水平的前三档，但由男性配偶评定的（代理报告）妻子和伴侣中只有25% 达到这一水平。当然，这一发现仅限于这一项调查、这一人群，尚未发现其他关于语言调查/ 普查中有关代理报告的方法问题的研究。

这一发现显然不能被视为最终结论的确凿证据，考虑到其他研究对这一方法问题所表达的广泛关切（如Maclean & Glenn（1979 ：76）的类似发现），这一比较确实表明通过代理报告获得的语言数据应谨慎对待。

当然，使用代理报告确有好处（Cobb 2015 ：64）。例如可以更快地收集数据，且成本更低。尽管如此，在语言人口学中，代理报告的风险依然存在，其对数据质量的影响依旧是一个灰色地带。关于语言水平调查中代理报告数据的准确性仍需要进行更多的研究，也需要寻找能够提高代理报告准确性的问题设计（Cobb 2015 对此有更为全面的讨论和梳理）。

五、人口普查中的是非两分型问题

普查中的是非两分型语言问题简单地询问受访者“你会说（某种语言）吗？”，请其回答“是”或“否”。此类问题假设了受访者使用一种语言的能力就如同其他技能一样，要么有，要么没有。爱尔兰共和国1996 年之后的所有人口普查都采用了这类问题，即“（此人）会说爱尔兰语吗？”，受访者通过勾选相应的方框（“是”或“否”）提交答案。全国汇总情况如表3所示。

可以看出，在1996 年至2011年的15年间，4次人口普查分别得到的结果保持了高度一致，在41% 上下。然而，对全国人口爱尔兰语水平的这一普查测定结果经常被批评为不准确且具有误导性。这些批评既有理论层面的，也有实证层面的。

要回答一个关于语言水平的是非两分型问题，需要受访者首先评估一下他们能将这种语言说得多好或多流利，然后考虑一下这个评估结果应该用“是”（我会使用该语言）或“否”（我不会使用该语言）来回答。虽然这对水平很高或很低的人可能不会造成什么困扰，但那些水平中等的人可能很难将自己的语言能力划分成（是/否）两个等级（Krosnick，Judd & Wittenbrink 2005 ：34）对于是非两分因此，是非两分型问题会导致受访者之间的回答不一致，其中一些中级水平者勾选“是”，而其他则勾选“否”框。

2013年爱尔兰共和国有一次针对这一问题的调查（调查详情见Darmody & Daly 2015）。在这次调查中，受访者被要求回答两个完全独立的问题，这两个问题之间没有任何联系。第一个问题要求受访者按六分制（见表1）对其爱尔兰语水平进行评分，第二个问题则询问受访者是如何回答2011 年人口普查语言问题的（在2011年人口普查中，有一个关于爱尔兰语的问题。调查者会问：“关于‘你是否会说爱尔兰语？’这一问题，你是否记得你本人或别人代你回答的答案？”）。需要指出的是，这两个问题是在45分钟的采访中，在两个不同的时间点分别向所有受访者提出的。

如表4所示，通过对这两个问题答复的交叉比较，可以获知那些在2011年人口普查中对“你会说爱尔兰语吗？”回答“是”或“否”的受访者的一些额外信息。总体上，13% 的受访者表示他们在2011年的人口普查中回答了会说爱尔兰语，62% 的人回答了不会说爱尔兰语，25% 的人则称他们要么不知道当时是怎么回答的，或是不记得了。然而，这里的研究兴趣不在于这些答复与人口普查数据之间的对应一致关系，而在于这3个分组关于自身爱尔兰语水平的打分。

调查结果在很大程度上是可以预计的。那些在人口普查中回答了不会说爱尔兰语的人，其答复分布倾向于低水平级别。对照详细列表信息，可知本组约93% 的人声称最多只知道几个“简单的句子”。回答“不知道”的第三组，答复分布模式与此相似。

然而，那些在2011 年人口普查中声称会说爱尔兰语的人，答复分布模式却不是那么清晰。很清楚的是，在普查中回答能讲爱尔兰语的人中，大多数受访者（53%）将他们的爱尔兰语水平评定为3个较高级别中的一个，但也有较多受访者（47%）将他们的实际爱尔兰语水平评定为“简单句子”或“零散单词”。因此，普查中的指标只是非常随意地区分了那些具有较高和较低水平的人。人口普查中回答“是”的人群中包含了大量爱尔兰语实际水平相当低的人，而那些回答不会使用爱尔兰语的人，其水平其实与前述回答“是”的人相当，或至少不是更低。

这些证据表明，在人口普查中使用是非两分型问题，受访者偏向于回答“是”（Foddy 1993 对此亦有论述）。鉴于“是/ 否”问题所带来的困难，Krosnick et al.（2005 ：35）认为似乎最好完全避免这种形式的问题。正如Foddy（1993 ：153）所指出的，“放弃是非两分型问题，使用其他变量，将获得更高的准确度，并允许使用更为复杂的统计程序来生成和测试更为复杂的假设。”（另见Schaeffer & Dykema 2011 ：921）

六、人口普查中的问题组块

在调查问卷中使用问题组块毫无疑问是一种广泛的做法，不过这种做法也受到了批评。Alwin（2007 ：180）基于证据指出，将问题归入组块会得出不可靠的答复，不如将这些问题单独放置或作为一个主题系列但使用不同的回答形式。

如表5所示，在2001年的北爱尔兰人口普查中，语言水平测量区块包含了4个关于爱尔兰语说、听、读和写能力的是非两分型问题。每个问题的回答形式都是“是”或“否”。此处我们的关注点是将这4个问题归入一个单独的组块，调查效果到底如何。

1991 年，约有8.8% 的人声称会说爱尔兰语，能读爱尔兰语的人略少一些（6.3%），能写爱尔兰语的人要更少（5.6%）。这一排序较为典型，与苏格兰和威尔士同一年普查中关于苏格兰语和威尔士语同一问题的答复比例相似。

在2001 年的人口普查中，增加了一个能否“听懂”爱尔兰语的新问题。大约8.2% 的人声称能够“听懂”爱尔兰语，但原来3个问题的回答呈现出一种矛盾的分布模式。在这一新的测定方式下，声称能熟练读写爱尔兰语的百分比保持稳定或略有增加，而声称能说爱尔兰语的百分比则从8.78% 下降到7.16%。

然而，有一些内部证据表明，增加了这个“听懂”爱尔兰语的新问题之后，可能对声称能说爱尔兰语的百分比产生了影响。交叉对比显示，在声称会说爱尔兰语的人中，20% 并未声称有能力听懂爱尔兰语。在威尔士和苏格兰的人口普查中使用了同样的系列问题组块，值得注意的是这些地区公布的数据中也出现了这种差异。声称能说威尔士语的人中约有15% 未声称能听懂威尔士语，声称能说盖尔语的人中有16% 未声称能听懂盖尔语。北爱尔兰统计和研究机构（NISRA）对这种差异未予置评，但在2001 年人口普查的威尔士语言报告（国家统计局（ONS），2004 ：39）中指出，“能听懂威尔士语的人数可能被低估了，因为一些能听懂威尔士语的人如果勾选了一个与‘ 更高’ 技能有关的方框，可能就没有勾选这个方框。”

虽然国家统计局没有提供支持这一论点的证据，但这一评论确实提出了一个有趣而可信的观点。事实上，英国人口普查统计专家认为，相当多的人可能会直观地将这一整套4个问题看作是从最低技能（听懂）到最高技能（写作）的一个排序。如果确实如此，倒是可以解释为什么一些受访者声称能够写作，却不能阅读；能够说，但不能听懂这一语言。反过来，将这4个问题作为整体，受访者只能回答“是/ 否”，那么，要表明口语水平较低这一状态，选择“能听懂”爱尔兰语比毫无保留地声称“能说”爱尔兰语更为可信。

因此，与1991 年的调查结果相比，2001 年的数字可能并非反映了口语水平的实际下降，而只是反映了这样一个事实：受访人正在使用新的问题格式，对其家庭成员的爱尔兰语水平做出更细致的评价。Alwin（2007 ：180）虽非从事社会语言学研究，但他关于问题组块的结论仍然值得注意：“……回答格式的相似性实际上可能会干扰受访者对所询问的信息进行充分考虑，并使其忽视每个问题的特殊性。”北爱尔兰和英国的人口普查数据支持这一假设，尽管显然还需要进一步调查这一问题。

七、讨论

尽管近几十年来在主流社会学研究中出现了大量有关调查方法的文献，用以评估一般性调查所获数据的质量，但还没有人研究人口普查或大规模调查收集的语言数据的质量。通过人口普查收集的语言数据被广泛应用于语言社会学、语言政策和规划研究以及政策文件中，但调查中所采用的问题本身所存在的问题往往被忽视了，普查数据也常被用于其无法满足或并不适用的科学研究和政策制定。

对目前语言普查研究进行比较性梳理，这一工作早就应该做了，这对于开发出一种更复杂的方法来测定人口普查中的社会语言学概念，以及对于普查数据在纵向上进行历时比较和横向上进行跨国整合，都是有必要的。在语言政策和规划中，无论是作为一个研究领域，还是作为一种具体实践，这一工作都是很重要的。

由于人口普查研究中对语言水平的测定最终取决于受访者对一个或多个问题的回答，因此关于这一话题，本研究聚焦于问题语境和问题形式等几方面的特征，探究其对结果数据质量可能带来的影响。从上文分析可以清楚地看出，在人口普查中广泛使用，但在大规模调查中较少使用的是非两分型问题高估了高语言水平受访者的比例，同时低估了低水平受访者的比例。将是非两分型问题置于一个组别的广泛做法已被证明给受访者带来了问题，并导致相互矛盾的统计结果。而有些令人难以捉摸的代理报告方式，也给人口普查数据蒙上了阴影，但迄今为止在文献中很少受到关注。

对于那些使用现有普查或调查数据开展二次分析的人而言，这些问题都是需要考虑的重要因素。不过需要指出的是，由于篇幅原因，本文无法全面考察问题形式和语境的变化对受访者理解和回答问题的影响。例如，与单选题和多选题有关的问题未有讨论。因此，有必要对所有这些问题进行进一步的研究，研究对象应从调查方法扩展到所有的研究方法（例如 Madans et al. 2011）。

此外，Schaeffer & Dykema（2011 ：917）回顾了三十年来关于调查问题设计的研究，提出了一个重要观点，即对调查问题的全面评估“需要注意调查中各种概念的理论定义和操作定义以及问题设计中出现的技术问题”。Bulmer et al.（Bulmer，Gibbs & Hyman 2010：4）也持类似观点，认为“实证性数据收集必须以相关的理论概念为依据，并使用这些概念构建数据收集的理论框架”。

与语言测试领域（例如 Bachman & Palmer 2010）和教育政策领域正在开发的一系列测定方式相比，迄今为止在人口普查中使用的简略的语言水平测定方式具有显而易见的局限性。不过，对于大规模调查而言，那些适合在课堂或语言实验室使用的语言水平测试显然过于复杂和耗时。如果将课堂语言测试的细致和严谨应用于大规模调查中，调查者和受访者将承受巨大的负担。尽管在实质关注以及理论和方法上都存在较大差异，在考虑人口普查中语言水平的测定问题时，也应参照语言测试领域对于语言水平概念的界定、描述和测量。

如今在多区域和多国家参与设计和管理的国际测试中，越来越多地使用自我评估问卷。首次“欧洲语言能力调查”（ESLC）（European Commission 2012a）就是一个很好的例子，它结合语言测试和自我评估问卷进行了大规模语言测试。虽然从该调查的报告中可以清楚地看出，其使用的自我评估量表仍需要大量的进一步发展和完善才可用于人口普查问卷，但显然值得注意的是，在人口普查语言问题的设计中处理概念界定和实际测定之类的问题时，可以参考语言评估和语言教育政策领域的工作成果。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。