打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中文词汇材料库合集
2018年末,基于英国诺丁汉特伦特大学的Andrew Dunn实验室网站,Open Science Club 团队系统整理了关于身体图片、声音及相关工具的材料合集,详见身体图片、声音、工具及中文词汇合集。加上Open Science之前的推文面孔材料和工具集合,心理学中可借鉴的49个面孔材料库与20个工具集。两次推文几乎全面介绍了一个人从上到下(面孔到身体),从内到外(声音、图片与视频)的研究材料与工具。
本次推文在OSC团队的推文基础上,详细介绍目前已有的中文词汇材料库,以便相关领域的研究人员知晓并获取实验材料。
1
中文词频表
词频是语言研究中最重要的变量。根据New、Brysbaert和其同事在英语、法语和荷兰语的工作,2010年,华东师大蔡清教授建立了一个基于电影和电视字幕语料库(4680万字符,3350万单词)的词频和字频数据库。
该数据库是第一个包含有关单词上下文多样性的信息,通过扫描以下二维码或输入链接即可免费获取SUBTLEX压缩文件(内含SUBTLEX-CH-WF, SUBTLEX-CH-CHR, SUBTLEX-CH-WF_PoS)。
网址:https://doi.org/10.1371/
journal.pone.0010729.s002
参考文献:Cai, Q., & Brysbaert, M. (2010). SUBTLEX-CH: Chinese word and character frequencies based on film subtitles. PloS one, 5(6), e10729.
2
汉字命名的心理语言学数据库
研究者提供3314个传统汉字的心理语言学数据,收集了140名中国人的命名反应时间(RTs)。
数据库中的词汇和语义变量包括频率、规则性、熟悉度、一致性、笔画数、同音异义度(homophone density)、语义歧义程度(semantic ambiguity rating)、语音组合能力(phonetic combinability)、语义组合能力(semantic combinability)以及由一个字符组成的双音节复合词的数量。
通过多元回归分析,考察了这些变量对RTs命名的预测能力。结果表明,这些变量在RTs的命名中占了很大的比例(55.8%)。这个资料库对于研究中文加工、中文教育或跨语言比较是非常有用的。
数据库可以通过在线查询系统访问,扫描下列二维码或输入网址查看。
网址:http://ball.ling.sinica.edu.tw/
namingdatabase/index.html
参考文献:Chang, Y. N., Hsu, C. H., Tsai, J. L., Chen, C. L., & Lee, C. Y. (2016). A psycholinguistic database for traditional Chinese character naming. Behavior Research Methods, 48(1), 112-122.
3
中文情绪词汇库
该词汇库总共有1100个中文单词,从效价、唤起度、具体性、熟悉度、形象度(imageability)和语境可用性评分。所有变量的评分均采用9分制李克特量表。
这一情绪词汇数据库将为利用汉语词汇进行情感研究提供有价值的信息来源,使研究人员能够使用高度受控的汉语语言刺激,更可靠地研究认知与情感之间的关系。
获取材料二维码或网址。
网址:https://static-content.springer.com/
esm/art%3A10.3758%2Fs13428-016-0793-2/
MediaObjects/13428_2016_793_MOESM2_ESM.pdf
参考文献:Yao, Z., Wu, J., Zhang, Y., & Wang, Z. (2017). Norms of valence, arousal, concreteness, familiarity, imageability, and context availability for 1,100 Chinese words. Behavior research methods, 49(4), 1374-1385.
4
中文词汇库
中文词汇库(Chinese lexical database, CLD)是一个大型的简体中文词汇库。提供了3913个单字、34233个双字词、7143个三字及3355个四字词的丰富词汇资料。
对于CLD中的48644个单词,研究者提供了广泛的分类预测因子,包括频率、复杂性、邻近密度(neighborhood density)、正字法音系一致性(orthography-phonology consistency)和信息理论(information-theoretic)度量。
获取材料二维码或网址。
网址:https://static-content.springer.com/
esm/art%3A10.3758%2Fs13428-018-1038-3/
MediaObjects/13428_2018_1038_MOESM1_ESM.txt
如果上述txt文件比较杂乱,也可以通过下面网址直接登录该作者网站查询,以及下载各种格式的CLD数据库。
CLD在线查询系统,可以按照研究者需要进行词汇分类查找,目前包括以下13种分类:
1
Words and characters
2
Character structure and type
3
Pronunciation
4
Frequency
5
Family size and family frequency
6
Visual  complexity
7
Neighborhood density
8
Semantic radical
9
Phonetic radical
10
Phonological  frequency
11
Orthography-to-phonology consistency
12
Phonology-to-orthography consistency
13
Information-theoretic measures
详情可扫描二维码或登录网址查看与操作。
网址:http://www.chineselexicaldatabase.com
参考文献:Sun, C. C., Hendrix, P., Ma, J., & Baayen, R. H. (2018). Chinese lexical database (CLD). Behavior research methods, 50(6), 2606-2629.
5
简体中文词汇判断数据库
该数据库包含1020个单字、1022个双字、949个三字和587个四字简体中文单词的词汇判断数据集(MELD-SCH)。
研究者发现单词长度与反应时间之间的U形关系,这在中文中还没有报道过。MELD-SCH能够提供高质量的规范数据和不同语言变量的信息,促进汉语词汇识别的研究。它还鼓励研究人员将他们的实证发现(主要基于一个字符和两个字符的单词)扩展到不同长度的单词。
相关材料扫描以下二维码或登录网址可见。
网址:https://static-content.springer.com/
esm/art%3A10.3758%2Fs13428-017-0944-0/
MediaObjects/13428_2017_944_MOESM1_ESM.xlsx
参考文献:Tsang, Y. K., Huang, J., Lui, M., Xue, M., Chan, Y. W. F., Wang, S., & Chen, H. C. (2018). MELD-SCH: A megastudy of lexical decision in simplified Chinese. Behavior research methods, 50(5), 1763-1777.
6
汉字书写的心理语言学数据库
该研究建立了一个汉字书写的心理语言学数据库。该数据库挑选出了1600个频率分布广泛的汉字,采用听写任务,总共203名被试来书写这些汉字,采集了被试的书写潜伏期、书写时长、书写正确率,并收集了1600汉字的14个词汇变量。
研究结果发现,字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素;语音变量(是否为形声字、规则性、同音字密度)影响正字法通达,但不影响运动执行;语义变量(表象性和具体性)只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库,该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具。
相关材料包括数据库、代码及论文可见OSF,扫描以下二维码或登录网址可见。
网址:https://osf.io/7s9kq/
参考文献:Wang, R., Huang, S., Zhou, Y., & Cai, Z. G. (2019). Chinese character handwriting: A large-scale behavioral study and a database. Behavior research methods, 1-15.
7
词语小世界
词语联想实验是一个大规模的科学研究。该网站研究者致力于构建世界上主要语言的大脑词库,并普及这些信息。
与一般词库或者字典不同,词语联想词库帮助我们深入了解人脑中最重要的词及其含义的构成。心理学家、语言学家、神经学家等其他领域的研究人员也可以利用词语联想词库检验有关语言表达和语言处理的新理论。这些知识可以运用于诸多领域,包括文化差异,母语或二语的新词习得与忘记。
详情请见原网址。
网址:https://smallworldofwords.org/
zh/project/home
8
语料库在线
该语料库是教育部语言文字应用研究所肖航教授建立的,网站提供在线现代汉语语料库检索、古代汉语语料库检索和语料库字词索引。
除此之外,提供了语料分析处理工具,如语料分词和词性标注、语料汉语拼音自动标注和语料字词频率统计。
详情可登录原网页查看并使用。
网址:http://corpus.zhonghuayuwen.org/
9
CCL现代汉语语料库
CCL汉语语料库总字符数为783,463,175,其中现代汉语语料库总字符数为581,794,456。
CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。主要功能特色在于:支持复杂检索表达式(比如不相邻关键词查询,指定距离查询等等);支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);支持在“结果集”中继续检索:用户可定制查询结果的显示方式(如左右长度,排序等);用户可以从网页上下载查询结果(text文件)。
网址:http://ccl.pku.edu.cn:8080/
ccl_corpus/index.jsp?dir=xiandai
10
新词语研究资源库
由国家语言资源监测与研究有声媒体中心提供在线查询1995年至2016汉语新词语。
网址:http://ling.cuc.edu.cn/
newword/showcls2.aspx?classid=94
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
汉语教学,18个你一定用得到的资源库
国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)
对外汉语教师备课找例句:一站即可
语言发展变化的因素有些属于语言自身运动,有些是语言间的相互接触影响所致
2021年了,你还只会查词典吗:推荐几个好用的语料库
普通人也能用的9个语料库网站,做研究、学外语的来看看
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服