第 20 届 CLSW会议 (CLSW-2019)将于 2019 年 6月 28 至 30 日在北京召开 ,此外小型研讨会将与CLSW-2019会议同时举行。小编在前线也网罗了一些会上自己人的研究内容安利给大家。
第二篇我们要推出的是《基于语料库的简单定心语块抽取研究》,这篇论文在BCC系统的支持下,从语言结构规则出发归纳出简单定心语块的内部结构类型,制订了形式化的语块知识检索规则,实现了语块知识获取的自动化。对此研究感兴趣的朋友您去不了现场,可以通过平台与作者交流。
基于语料库的简单定心语块抽取研究
01
任务说明
从语言结构规则出发,探索从大规模语料中自动抽取简单定心语块知识的方法。
02
简单定心语块的界定与构成分析
2.1 简单定心语块的界定
简单定心语块:句法结构上无嵌套的、具备二元搭配性特征的、高频稳态出现的定心结构。
“简单”在这里主要指句法结构非嵌套。例如,下面两组例子中,1)中都是简单定心语块;2)中成分嵌套,都不是简单定心语块。
1)a. 宏伟 建筑
b. 远大 前程
c. 漂亮 [的] 花朵
2)d. 一件美丽的衣服
e. 美丽的鞋子和帽子
2.2 简单定心语块的构成分析
通过考察并统计宾州树库中词数为2的NP-OBJ[1]标记语言单元内部词性序列以及词数为3且包含定中形式标记“的”的NP-OBJ对应的词性序列,结合研究学者对定心结构内部构成的归纳和判定,将高频出现的简单定心结构内部词类序列归为以下11类:
表1 常见简单定心语块词类序列
词类序列[2] | 实例 | |
1 | n n | 人民福祉;公司员工 |
2 | a n | 锦绣前程;美丽的花朵 |
3 | b n | 大型比赛;旧式手机 |
4 | v n | 提出的问题;合作情况 |
5 | q n | 本书;匹马 |
6 | r n | 这个民族;其他名称 |
7 | s/t n | 边境贸易;今日热点 |
8 | n v/a | 语法研究;社会的稳定 |
9 | n/s/t f | 桥头附近;冬天的尽头 |
10 | n/s s | 父母身边;活动现场 |
11 | n/t t | 昨天上午;周一的早上 |
[1] 宾州树库的标注集中,“NP”是名词短语的标记符号,“OBJ”代表直接宾语。“NP-OBJ”表示充当直接宾语的名词性短语。
[2] 词性符号说明:n -- 名词;a -- 形容词;b -- 区别词;v -- 动词;q -- 量词;r -- 代词;s -- 处所词;t -- 时间词;f -- 方位词。
03
简单定心语块抽取
3.1 语块抽取系统及抽取规则
在BCC高级检索系统下,利用定制检索式进行语料抽取。其检索式形如:
Query{cond1;cond2;...;condi;print($i)}
“Query”表示基本检索式,用于书写目标搭配的词类序列,也可引入上下文标点符号的限制;“{}”中的条件语句对查询内容进行音节数或句法、语义子类信息的限定;输出语句对输出内容进行指定。检索式中被限定的部分需要用“( )”括起来,根据“( )”出现的顺序,可使用“$”符号 序号取得该部分内容,进行条件限定或输出限定。第一个“( )”中的成分用“$1”表示,第二个“( )”中的成分用“$2”表示。一个检索式中只能对两处进行限制。
例如,检索式“(a)的(n){len($1)=2; len($2)=2;print($1 $2)}”中,“(a)的(n)”表示要检索的是形如“形容词 的 名词”的搭配。“{}”中的“len($1)=2”表示限制形容词为双音节,“len($2)=2”表示限制名词为双音节,“print($1 $2)”表示输出“形容词 名词”的组合。
3.2 简单定心语块抽取算法
3.2.1 检索式储存
用检索式描写各类简单定心语块的结构特征,将两百余条简单定心语块检索式存入指定文件,以备后期程序处理。
3.2.2 利用BCC提供的WebAPI进行批量抽取
通过编写Perl程序,读入已经存储在指定文件中的检索式,然后通过云服务的方式对BCC进行调用以抽取搭配知识结果。
3.2.3 同类定心语块抽取结果的累加
例如,“bn”(区别词 名词)类型的定心语块有15条检索式,其中“主要 内容”的搭配在检索结果中累计出现5次,则记为“(主要,内容,5, bn)”。
3.2.4 对同一个修饰词W1的搭配实例W2进行由高到低排序
依照齐夫率(Zipf’s Law)对定心语块搭配频次进行阈值的限定。将某个修饰词W1下的搭配Wi实例按照频次从高往低进行排序,计算Freq1 Freq2 …. Freqi=80%×Total_Count。将阈值定在Freqi部分,频次大于该阈值的为抽取的搭配结果。图1 简单定心语块抽取算法图示
3.3 抽取结果评估
参照形容词词频,采用分层抽样的方法选取100个双音节形容词对其“形名”类型语块进行人工交叉验证。两位语言学专业的硕士生对抽取出来的搭配情况进行判定,两者一致判定为定心结构时,即认定该搭配正确,否则错误。100个抽样形容词的定心语块的平均正确率为82.63%。
04
结语
本文在BCC系统的支撑下,从语言学本体角度出发总结归纳了简单定心语块的内部构成类型,然后制定形式化的语块知识检索规则,从而实现语块知识获取的自动化。在未来的工作中,试图采用融合的策略进行语块搭配的认定。如分别用本文提出的方法、互信息度量的方法对语块搭配进行判定,然后选择两种方法共同认定的语块搭配作为最后正确的结果。
05
关于作者
王诚文,北京语言大学博士,语言智能与技术专业
张政,北京语言大学硕士,语言学及应用语言学专业
饶高琦,北京语言大学汉语国际教育研究院硕士生导师
荀恩东,北京语言大学信息科学学院博士生导师
注:本论文将于6月30日下午14:15至14:30北京国际温泉酒店第十会议室进行口头报告。
联系客服