李子鹤：语言亲缘分群方法概述

作者简介

李子鹤，男，河北人，北京大学中文系博士，现为首都师范大学文学院讲师，主要研究方向为历史语言学、中国少数民族语言。曾在Journal of Chinese Linguistics、《语言学论丛》、《汉藏语学报》等杂志发表文章。

亲缘分群是为了理清亲属语言或方言之间的谱系演化关系。我们通过亲缘分群，可以知道纳入构拟的几个语言（方言）之间，哪些和哪些是最先分开的，哪个和哪个关系最密切。这样，如果一个语素在最先分开的几个方言之间满足完全对应，那么它的存在年代就能追溯到方言分化之前，也相当于是原始语阶段。因此这样的语素构拟到原始语中也是比较肯定的。

历史比较语言学的语言演变理论与生物进化理论的产生几乎同时。德国语言学家施莱歇尔提出了语言演变的谱系树模型并绘制了第一棵印欧语谱系树（Schleicher 1863，转引自Lehmann 1967）：

图 1 施莱歇尔（1863）绘制的印欧语谱系树

经过学者们的不断发展完善，目前语言的亲缘分群已经发展到了计量研究阶段。Myers and Wang（1963）首先讨论了运用计量方法构建语言谱系树的问题。王士元、沈钟伟（1992）提出了用计量方法构建谱系树的四个步骤：一、特征选择；二、特征量化；三、计算相关系数；四、聚类分析。其中最后一步主要是数学算法问题，本文不打算展开详细讨论。前三步可概括为语言信息的选择和编码问题，这是本文重点讨论的。

共享创新法

结构的“独特的共享创新（unique shared innovations）”是历史语言学研究中普遍接受的历史分类标准（Campbell 1998），其主要论证依据是，独特的创新不会在两个已分离的子群中共同出现。一旦一组语言中出现独特的共享创新，它们必定来自一个共同祖语。早在19世纪的印欧历史比较语言学研究中这一标准就被广泛使用，例如Hübschmann（1875）在对亚美尼亚语的历史地位的讨论中，就提出亚美尼亚语的若干音变是与梵语、祆语、波罗的-斯拉夫语都不同的，因此它应是印欧语中独立的一支。Baxter（2006）在汉语官话方言的亲缘分类研究中，运用生物学的画树技术，首先将这一方法计量化。他首先构拟了原始官话，总结了从原始官话到现代官话方言的语音演变，从中确定了29项创新特征并将其编码。一个方言有其中一项特征记为1，没有这个特征记为0，这样就得到一个特征矩阵。矩阵的一部分如下所示：

表 1 Baxter（2006）总结的从原始官话到现代官话方言的创新特征及其编码（部分）

将这个特征矩阵输入相关程序，就得到官话方言的谱系树：

图 2 Baxter（2006）的官话方言谱系树

汪锋、王士元（2005）对汉语方言的亲缘关系研究和Wang（2006）对白语方言的亲缘分群研究都运用了上述方法，并对方法进行了一些改进，主要是将语义创新和词句法创新纳入特征编码。

共享创新标准易于操作，可以全面收集语言信息，但存在两个问题。第一，许多音变在类型学上是否普遍，目前学界没有共识。因此哪些音变是“很常见”的而应该排除，还会存在争议。Baxter（2006）已经注意到了这一点。第二，创新特征的认定往往要依赖音类的归纳和音值的推断。音类的归纳就是归并语音条件互补的对应规则，这与音位归纳类似，可以有多种合理的方案，音类归纳不同则可能影响音变规则的提取。音值的推断也有会一定程度的主观性，而音值的推断不同，音变规则就可能不同。Baxter（2006）把选取的特征限制在音类合并上，目的就是保证这些特征一定是创新，但音类归纳问题仍不可避免。因此，共享创新标准在操作中会遇到困难。

词源统计法

随着语言接触研究的深入，学者们认识到在接触很深的情况下，结构特点可能发生重大的改变（陈保亚1996）。一组语言结构上的“共同创新”，既可能是同一祖语分化的结果，也可能是共同受到某一外来语言影响的结果。因此，在考虑接触的情况下，结构共同创新标准在理论上也有局限。但是，语言接触研究同时也发现，越是核心的词汇在接触中稳定性越强，越不易被替换。王育德（1960）提出了利用Swadesh 200词（Swadesh 1952）在同源语言中的保留率来衡量语言之间的亲缘关系远近，也就是“词源统计法”。Wang（1994）、陈保亚、何方（2002）运用这一方法，使用Swadesh（1955）的100词表计算了澳越语的亲缘关系。

表 2 陈保亚、何方（2002）的澳越语言第100核心词对应比例表

该同源词表中的数量均是100 核心词中同源词的数量比例, 基本上代表了每两个语言亲属关系的远近, 比例越高, 两个同源语言的分化时间越晚,或者说两个同源语言的发生学关系越近。根据共同核心词在不同语言中的差异, 就可以画出谱系树。这个过程就是从同源词比例表到谱系树的转换。根据Kitch 软件计算出来的澳越语谱系树如下：

图 3 陈保亚、何方（2002）的澳越语言谱系树

不过，核心词保留率标准目前的困难是核心词表的确定一直存在争议。自Swadesh（1952）提出核心词的概念并给出200词表后，许多学者都提出了自己的核心词表，如Swadesh（1955）的100词表，Dolgopolsky（1986）的23词表、雅洪托夫（S.E.Jaxontov）的35词表（Starostin 1991）、Lohr（1998: 54）的61词表、Holman et al.（2008）的40词表等，条目都有一定出入。陈保亚等（2012）提出了根据调查数据动态调整核心词表的设想，但工作量很大。

总结

综观各家研究，共享创新法和词源统计法是目前学者们所选择的两种主要方法。这两种方法各有其合理性，又都会遇到一些困难。接下来我们努力的方向，可能是设计一种尽量客观的方法，既能避免原始语音值推断的主观性，又能避免词表选择的主观性。

参考文献：

陈保亚 1996 《论语言接触与语言联盟》，语文出版社。

陈保亚 1999 《20世纪中国语言学方法论》，山东教育出版社，1999年。

陈保亚、何方 2002 《核心词原则和澳越语的谱系树分类》，《云南民族学院学报》第1期。

陈保亚、李子鹤等 2012 《核心词自动分阶的一种计算模型——以纳西族玛丽玛萨话为例》，《云南民族大学学报》第5期，121-126。

汪锋、王士元 2005 《语义创新与方言的亲缘关系》，《方言》第2期，157-167。

王士元、沈钟伟 1992《方言关系的计量表述》《中国语文》第2期。

王育德 1960 《中国五大方言分裂的语言年代学试探》，东京《言语研究》第38辑，14-16。

Baxter, William. H. 2006. “Mandarin dialect phylogeny”. Cahiers de linguistique - Asie orientale 35.1: 71-114.

Campbell, L. 1998 Historical Linguistics: An Introduction. Edinburgh: Edinburgh University Press.

Dolgopolsky, Aharon B. 1986. “A probabilistic hypothesis concerning the oldest relationships among the language families of northern Eurasia”. Typology, Relationship, and Time: A Collection of Papers on Language Change and Relationship by Soviet Linguists, eds. VV Shevoroshkin and TL Markey. Karoma, Ann Arbor, MI, 27-50.

Holman, Eric W., S?ren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, Dik Bakker. 2008. “Explorations in automated language classification”. Folia Linguistica 42. 2: 331–354.

Hübschmann 1875 “On the position of Armenian in the Sphere of the Indo-European Languages”. In Lehmann ed. A reader in Nineteenth Century Historical Indo-European Linguistics. Bloomington: Indiana University Press, 1976.

Lehmann, Winfred (ed). 1967. A reader in Nineteenth Century Historical Indo-European Linguistics. Bloomington: Indiana University Press.

Lohr, Marisa. 1998. Methods for the Genetic Classification of Languages. Ph. D. dissertation. University of Cambridge.

Meyers, L. F. and William S-Y. Wang 1963 Tree representations in Linguistics. Project on Linguistics Analysis Report 3, Ohio State University.

Swadesh. M. 1952. “Lexico-statistic dating of prehistoric ethnic contacts”, Proceedings of the American philosophical society. 96.4: 452-463.

Swadesh. M. 1955. “Time depths of American linguistic groupings”. American Anthropologist 56. 3: 361-377

Wang, Feng. 2006. Comparison of Languages in Contact: the Distillation method and the case of Bai. Taipei: Academic Sinica.

Wang, William S-Y. 1993 Glottochronology, lexicostatistics, and other numerical methods.收入《王士元语言学论文集》

作者：李子鹤

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。