打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据时代的语言研究:距离与方向


刘海涛教授是国际计量语言学的领军人物之一,是近十年来被WOS核心库(SSCI、A&HCI、SCI)收录语言学论文最多的大中华区学者,还名列爱思唯尔2014、2015“中国高被引学者”(Most Cited Chinese Researchers)。

在为时三个小时的讲座中,刘海涛教授就大数据的研究方法和基于依存语法的计量研究进行了详细介绍,并对语言学如何国际化和科学化表达了自己的见解。

一、关于大数据与研究方法


1. 大数据时代的转变


舍恩伯格《大数据时代:生活、工作与思维的大变革》一书指出:大数据开启了一次重大的时代转型。大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。

大数据时代最大的转变就是放弃追求因果关系,转而探求相关关系。大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。


2. 数字人文的真谛


相较于以往内省式的研究方法,计量语言学使用的是数据驱动的科学研究方法。任何一门学科,包括经济学、金融学、物理学、历史学等等,都有数据和理论的问题。

数字人文的真谛是:

把数字(数据)与知识、社会、文化、行为、人联系在一起,而不是简单地把一本书、一幅画数字化后保存在计算机里;

通过可视化的方法,更直观地展现这种联系;

通过数理统计方法,更科学地解释数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。


3. 基于真实语料的研究


语言学是研究语言结构与演化规律的学科。语言学家的任务是思考并回答以下问题:


线性结构与网络结构之间的转换是如何及何时进行的?

字同现、词同现、句法、语义、概念等层面有什么区别?

这其中有什么规律存在?


这些问题引出了讲座的主题:基于真实语料的语言研究。

二、基于依存语法的计量研究


从2008年到现在,刘海涛教授作为第一(通讯)作者发表的文章,已被SCI(科学引文索引)收录17篇,SSCI(社会科学引文索引)收录43篇,A&HCI(人文艺术引文索引)收录41篇。


这有力地证明:语言学研究也可以国际化,语言学家可以被科学家所认可。这些研究中提到最多的词语就是“关系”、“距离”和“方向”。

依存关系是一种词间句法关系,依存句法是一种以依存关系为基础的句法理论。依存关系具有三种基本属性:二元的,即它是一种两个元素之间的关系;不对称的,这是构成依存句法树层级体系的基础;它是有标记的。

现代语言学认为语言是一个符号系统。刘海涛教授指出,语言是一个由人驱动的符号系统。研究语言不能不考虑人。人包括生理、心理两方面,社会、自然两种属性,因此认知规律对应语言普遍性,生态多样性对应语言多样性。



1.  依存距离与认知


依存距离指的是构成依存关系的支配词和从属词之间的线性距离。依存距离和句子理解难度的关系是:依存距离均值可以在一定程度上反映分析句子的难易程度,即依存距离均值越大,句子分析就越难。

就语言与认知研究而言,可以提出这样的问题:真实文本的依存距离具有某种分布规律吗?这些规律是人类语言特有的吗?这些规律的认知基础是什么?

针对这些问题,通过考察随机和自然语言的依存距离的时序分布情况,得出依存距离均值比较图,进而提出依存距离的三个假设:(1)依存距离要尽可能地小;(2)这个小的要求是在一个范围内,与人的工作记忆容量差不多;(3)认知和语法共同起作用。

2008年,刘海涛教授采用了20种语言的大规模真实语料库,在世界上首次验证了“依存距离最小化”可能是人类语言的一个普遍规律。

那么,依存距离分布有没有规律?依存距离分布的规律是否符合一定的分布模型?依存距离分布模型是否会随不同语言而异,导致分歧的主要原因是什么?

研究发现:人类语言依存距离分布具有规律性,本质上,其分布都是一种指数函数和幂律混合的分布模型;多数语言符合一定的分布模型,指数函数和幂律分别较适合拟合“短句”与“长句”的依存距离分布;为什么长句是幂律呢?因为幂律是系统自适应调节的结果;两种分布模型分歧的主要原因可能受拟合方法、不同语言、句长和文本大小等方面的影响。


2.依存方向与语序类型


格林伯格(Greenberg)语言类型学中有很多共性的前提是“除了偶然出现的情况外”“在大多数情况下”,等等。这说明共性的取得是基于统计的。依存方向反映了构成依存关系的两个词在句中的相对位置,这与现代语序类型学的关系极为紧密。例如,可以将VO记为支配词置前和OV支配词居后的依存关系。


2010年,刘海涛团队采用20种语言的大规模真实语料,在世界上,首次发现语序类型是一个连续统,开辟了用大数据进行语言类型学研究的新思路。

依存距离将语言与认知联系在了一起,可以通过文本的计量来进行语言与认知的研究;基于真实语言材料(大数据)的依存方向研究又拓展了语序类型学的研究空间。除此以外,刘教授的团队还利用自然科学领域的复杂网络研究方法开展了语言学研究。

三、语言学如何国际化和科学化


一个不可否认的事实是,中国的语言学研究者数量不少,但是在国际上却成果不多。这是值得深思的一个问题。


1. 中国语言学的国际化

中国语言学的国际化首先要求我们在坚持传统的同时,要注重研究范式和方法的转变,应该将语言学作为认知与生命科学的一部分;在研究问题上,需要选择一些人类语言的基本问题来研究。这方面,刘海涛教授讲了自己团队关于罗曼语族语言演化的一项研究。

一般认为,罗曼语族语言从拉丁语变化而来,为语言的演化和发展提供了很好的研究材料,这种演化路径极有可能也是人类语言的发展规律。因此,罗曼语研究在国际语言学占有很重要的地位。但是,在这一领域有两个基本问题争论很多:一是究竟有没有罗曼语族,能否找到一个统一的标准;二是如果罗曼语族是从拉丁语发展而来的,有没有什么指标能够体现这一发展轨迹。

2012年,刘海涛教授与他的博士生徐春山,基于十多种语言的句法标注语料库,采用依存距离、依存方向等量化指标,发现依存方向的分布斜率可以回答以上这两个问题。此外,从依存树库中提取出的依存句法网络反映了语言屈折变化的程度。再者,聚类分析显示了这些参数也有助于将罗曼语跟拉丁语和其他语言区分开来。


2. 语言学的科学化

语言学科学化,要用科学的方法来解决语言学的问题。

这方面,刘海涛教授介绍了他们在世界上率先提出的采用复杂网络来进行语言分类(类型)的研究,也介绍了他们在世界上首次进行了语言作为一个多层级系统的实证研究。他们还采用计算机仿真的方法,研究了语言组块的形成以及在降低句子复杂度方面的作用。这项成果发表在研究复杂适应系统的专业刊物《复杂性》杂志(Complexity)上,他们用科学方法证明语言是一个复杂适应系统。

由于刘海涛教授团队在语言复杂网络方面做出了许多重要的创新性成果,国际著名刊物《生命物理学评论》(Physics of Life Reviews, SCI 2014年影响因子9.478)的主编邀请他为该刊撰写了题为“通过复杂网络研究人类语言”(Approaching human languagewith complex networks)的长篇评论。这是世界上第一篇刊登于高水平学术期刊的有关语言复杂网络的长篇评论,刊出不久后,便被列为2015年ESI高被引论文,目前已成为语言复杂网络研究领域的重要文献。国际著名的语言复杂网络学者R. Ferrer-i-Cancho认为:基于网络方法,刘海涛与其博士生丛进的这篇文章正在定义未来的语言学,这种方法正重构并统一理论语言学。

刘海涛教授及其团队在语言与认知和语言类型方面展开了突破性的研究,并取得了国际领先的研究成果,包括:用依存距离将语言与认知联系在了一起,可以通过文本的计量来进行语言与认知的研究;再者,用依存方向可以进行基于真实语言材料(大数据)的语言(语序)类型研究;最后,利用复杂网络可以进行基于真实语言材料(大数据)的语言(形态)类型研究。这些研究都指向一个理念:语言是一个复杂的自适应系统。

讲座最后,结合自己的研究经历,刘海涛教授建议,语言研究的国际化与科学化,要以问题以及数据为驱动,使用科学的研究方法,对语言的结构模式以及演化规律进行考察。长期以往,才会使语言研究的科学化落到实处,否则,“语言学是一门领先科学”,也就是语言学家自己的美好愿望而已。

刘海涛老师回答了观众的提问,互动的气氛特别热烈。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【干货版】刘海涛纵议大数据时代的语言研究(上)
35年的圆梦之旅:中国牛教授刘海涛当选世界语学院院士
刘海涛:大数据时代,语言学正经历一场“革命”|社会科学报
[首藏作品](1838)高被引学者刘海涛: 好奇是做研究的原动力
民族语言学论坛系列讲座第三十八讲会议报道
::信息中心
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服