打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【原创试刊】吴建明:大数据时代的语言研究是否只“要相关,不要因果”?


数据是近年来兴起的概念,大体上是指通过一系列精炼,提取、分析,从庞杂、无序、多维的信息中获取和应用情报的一种方法。大数据研究是人类文明的一个创举,它让我们有能力驾驭海量信息,使得以往变化莫测,捉摸不透的自然、社会现象,变得模式凸显,有章可循。这不仅让许多的科学猜想获得实证检验的机会,也极大加速了新理论、新假说的产生。这无疑是驱动我们认识和改造客观世界的正能量。


语言学领域的大数据研究最吸引人的莫过于自然语言处理了。通过数学统计和机器算法,人们可以让机器学习人类的语言使用,从大量的语言信息中搜寻有规律,重复出现的模式,并不断让机器识别、记录和改进这些模式,从而可以实际应用于语音识别、机器翻译、输入法、拼写检查、诗歌创作、人工智能等诸多领域。这是人类语言应用方面前所未有的大突破。语言大数据研究另一个重要领域是理性主义研究。这类研究通常带有一定的理论预设,通过大规模语料分析和计算,找出字、词、句子的在历时和共时上的分布规律,从而为社会语言变迁、语音语法演变、语言共性规律、语言类型学划分等研究提供一定的实证支持。例如,浙江大学的刘海涛教授及其团队在依存语法的框架内,通过对汉语语料的分析,发现汉语词与词之间的依存距离均值是2.84;汉语中约40-50% 词汇依存关系不是发生在相邻的词之间;汉语是一种支配词置后略占优势的混合型语言,等等。这类研究揭示了汉语词汇关联的规律,是一种较为科学的描写性分析,也为其它理论研究提供了一定的实证基础。


在当前大数据风起云涌的时代,秉持此研究理念的学者们坚信这种研究方法开启了一次重大的时代变革,甚至提出“要相关,不要因果”的口号(见迈尔舍·恩伯格在《大数据时代》一书)。那么,语言研究者是否应该顺应时代潮流,倾力研究诸多“变量”之间的相关性,而无须考虑事物之间的因果关系呢?既然我们有了精深的统计知识和机器算法,可以在机器翻译、语音识别、语言共性规律等方面取得以往不可能实现的成就,那么我们是否还需要形形色色的探索因果关系的理论?换句话说,如果机器可以按自己的“思维”方式实现人类语言的交际功能和研究人类语言的功能,我们何必花时间探索语言背后的哲学基础?何必沉思语言现象内在的因果关系? 



这些问题要从相关性和因果关系谈起。我们知道,每一种现象都有与之关联、对应的若干现象,这种关联关系的确立本质上取决于我们对之进行处理的“水平和层级”。相关是统计上线性回归的概念。举例来说,经过千百年来的观察,老百姓发现“燕子低飞”、“蚂蚁搬家蛇过道”都和“天要下雨”相关;当经验(数据)积累多了,两个现象之间的关联发生的概率足够显著,那么它们就是统计意义上的相关。然而,因果关系是人类的理性行为,也是客观存在的事物关系。科学家发现只有在特定天气、地理条件下,水蒸气上升,遇冷凝结下落的前因,才导致“下雨”的后果。因此,因果关系是复杂多面的,可能看不见、摸不着,无法用常规方式直接记录。相关性分析有利于因果关系的发现,因果关系也可能被量化为相关性,但因果关系不一定必然存在于可观测的相关性分析中。 相关性不等于因果关系是统计学的常识。


大数据是人类的技术进步,但任何一个学科的技术都不能代替这个学科本身。望远镜比人的肉眼强,它的发明使天文学获得了前所未有的发展,但是望远镜并不能代替我们关于“日心说”和“地心说”的思考(公元前300多年就有地球围绕太阳运动的观点)。在很大程度上,望远镜也只是为我们思考这类问题提供了更大的便利。当然,在新的技术出现之后,科学家可能会提出以前没有提出过的问题,但这仍然不意味着技术可以代替人来思考这些问题。事实上,人类对因果关系的渴求受到与生俱来的好奇心驱动,是一种独一无二的理性力量。不管是小数据年代,还是大数据时代,人类都乐于对事物之间的关联关系做出判断,并充满理性地探索那些最本质、最根本的因果关系。哲学上称之为“充足理由律”,即必须有一个为什么这样而不那样的充足理由。“充足理由律”探索事物背后的原因,也是人性的体现,它推动了现代科学技术的迅猛发展,衍生出庞大的理论体系。因此,有学者甚至认为放弃对因果关系的追寻,就是人类的自我堕落(见周涛《为数据而生》)。


同样,大数据固然有助于人们的科学探索,但人们不可能靠它一劳永逸地解决所有问题。这完全是由于大数据本身的性质所决定的。


这个观点还要从大数据的“大”字谈起。大数据之所以“大”有两方面的因素:一方面是在同样的参数、变量的情况下,尽可能地增加观察、记录的次数,从而扩大数据规模;另一方面是在同一次观察、记录中,尽可能地增加参数、变量的数目,也同样扩大数据规模。在现实研究中,这两个因素经常同时起作用,两两相乘,便是大数据“大”的缘由了。然而,数据规模虽然可以无限扩大,但它仍不是决定人们因果推断能力的根本因素。我们不妨这样看问题, 随着观察次数增加,基于某个统计模型的估计值,其精确度就有可能不断提高。然而,问题在于是否观察次数越多,这个模型就可以自动消除因为某个变量缺失而带来的计算偏差?举个简单的例子来说。假设在一座城市有甲、乙两家医院。通过数十年间不间断的数据收集,我们发现在去过两家医院的患者中,甲家医院的死亡率非常高,而乙医院的死亡率很低。那么,我们是否就可以得出甲医院是坏医院,而乙医院是好医院呢?并不能!这是因为我们忽略了一个重要的外生变量,即甲医院是更高级别的医院,收治了更多病情严重的病人;而乙医院是较低级别的医院,只能治疗一些感冒、擦伤之类的小病。这就是统计学上所谓的“遗漏变量偏差”。可见,即使我们积累了数十年多次观察的数据,甚至把病人的名字、性别、年龄、住所、饮食、婚姻关系、子女就业等都考虑进去,我们仍可能没有触及最根本因果问题。要解决这个问题,还需要对我国特有的医疗体系有所了解,并依此设计有针对性的统计模型。我们知道,每一种现象都有与之关联、对应的若干现象,这种关联关系的确立本质上取决于我们对之进行处理的“水平和层级”。 燕子低飞,要下雨,老百姓处理为相关,科学家就不能这么认为。那些从一定认识框架出发,认为自然而然、直观的视角,并不一定必然导向非直观、隐秘的、甚至是偶然的因果关系。我们认为大数据的“大”不足以解决全部问题,而更在于我们是否有超越表象的批评性反思。如果大数据中的相关性代表“是什么”,那么它的存在其实还因“为什么”而起的。


2015年,美国迈阿密大学的语言学家凯莱布·埃弗里特(Everett C.)及其同事考察了3700多种语言,其中629种语言有复杂的声调。它们发现声调类型复杂的语言更多出现在气候湿润的地区,而声调单一或无声调的语言更可能出现在气候干燥地区。埃弗里特教授提供的解释是干燥的空气容易使得发音器官脱水,降低声带弹性;在气候干燥、干冷的环境下,要发出复杂的声调比在温暖湿润的环境下要困难的多。这种因果推断似是而非,但颇受欢迎,很快被作为气候影响语言的证据,被国内多家网站转载。然而,仅仅一年后,荷兰内梅亨大学的杰里米·柯林斯博士(Jeremy Collins)就针对这篇文章的结论提出质疑。他认为由于在人类语言大多聚集在气候湿润地区,埃弗里特教授及其团队的统计样本很可能是取自同一个气候湿润的地区。这些温润地区聚集着为数众多的语言聚集,它们之间还可能具有亲缘关系,而恰恰是这个“亲缘关系”的变量被埃弗里特教授及其团队所忽略。事实上,荷兰的柯林斯教授通过另外一种数据收集方法(在同一个语系随机选取一个语言,再在该语系谱系树中再随机选取其它语言),得出语言接触是重要的干扰因素,可以在全球范围内产生声调与气候湿润积极关联。柯林斯博士认为语言接触、语言的地理分布,甚至地理地貌特征均是干扰声调和气候相关性的因素。虽然美国埃弗里特教授研究了近半数的人类语言,但由于没有考虑这些因素,因此他们的结论并不可靠。我国语言大都是声调语言,这也引起了国际语言学家的广泛关注。事实上,语言学家桥本万太郎(Hashimoto Mantaro)很早就指出,在汉语方言中,越往南的方言,调类越多,而越往北的方言,调类越少。北方汉语之所以调类少,是受了阿尔泰语的影响。那些进入中原地区的族群,受汉族影响,改用汉语,但他们所讲的汉语仅保留了有限声调类型。当前汉语与阿尔泰语接触最前沿的是兰银官话,有的方言只有两、三种声调,而与南方粤语相邻居的语言则声调类型丰富。可见,如果缺乏对社会、文化、历史,以及语族、语系等类型学理论知识的把握,大规模数据的研究并不总会产生有价值的科学发现,甚至得出误导性的“虚假相关”(Spurious Correlation)。这足以引起我们的警惕!


上述例子的相关性研究并没有错,但问题在于他们急于把医院的好坏与死亡率、气候与声调等相关性等同于因果关系,并没有意识到各种因素相互制约的复杂性和隐含性,因此掉入了统计陷阱,得出了错误的因果推论。



再次重申本文的观点,我们认为大数据的“大”并不足以改变人们因果推理的能力。人类不会,也不可能一劳永逸地仅依靠机器实现从提出假说到实践检验的全过程。本质上,我们仍然需要坚实、强大的反思性的机制和理论追求来指导我们的数据收集和模型设定。在这方面,大数据和小数据没有原则区别。一些学者提出“只要相关,不要因果”的口号其实是针对大数据研究中找出可复现模式的能力而言的。若其出发点是先仔细观察、积累数据,不妄做因果推断,确实是很必要的,但关键之处在于它可能导致我们盲目地从“相关性”得出错误的“因果关系”,因为这个说法主张的就是“不要因果”。语言学研究和其他科学研究一样,并不能仅仅停留在发现相关性,找寻可复现的模式的活动上。语言研究者需要持之以恒地保持好奇心和批评性思维、特别保持对根本性因果关系的追求决心。只有这样才是大数据时代语言学研究的正确发展方向。我们认为只有人才具有因果关系的终极解释权,也只有人才是人类历史的推动者。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
论大数据思维的局限性及其超越
从相关性到因果性-读《The book of why》
因果迷境:为什么我们会问“为什么”?
因果与概率:一个世界两种思维
《读书》新刊 | 余成峰:从大数据神话拯救隐私
公元2019年,你对AI的信任有几分?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服