打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
文本数据

词源

文本指的是由一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本数据来源于自然语言,具有如下特点:半结构化、高数据量、语义性。

基本内容

文本数据通常指英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。文本数据不同于传统数据库中的数据,具有以下特点:①半结构化。文本数据既不是完全无结构的,也不是完全结构化的。文本可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的数据,如摘要和内容。②高数据量。一般的文本库中都会存在至少数千个文本样本,对这些文本进行预处理、编码、挖掘等处理的工作量是非常庞大的,因而手工方法一般是不可行的。③语义性。文本数据中存在着一词多义、多词一义,在时间和空间上的上下文相关等多种复杂情况。

文本分析是处理文本数据的常用方法,指对文本的表示及其特征项的选取。文本分析过程可以包括:①词性分析,如自动分词,命名实体识别,词性标注等。②句法分析,如确定句子句法结构,句子中词汇之间的依存关系。③语义分析,如词义消歧,语义角色标注,指代消歧等。

而文本挖掘是在文本分析的基础上、从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。文本数据的挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现,是图像、语言、自然语言理解与知识挖掘中的重要内容。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

研究方向

文本数据处理的研究方向有:机器翻译,自动文摘,信息检索,文档分类,问答系统,信息过滤,信息抽取,文本挖掘,舆情分析,隐喻计算,文字编辑和自动校对,作文自动评分等。文本处理涉及形态学、语法学、语义学、语用学等几个层次的问题,应用领域非常广泛。

研究面临的主要困难是歧义消解问题和未知语言现象的处理。歧义消解是文本处理分析的要解决的基本问题,在汉语中,如举例所示:①自动化/研究所/取得/的/成就;②自动化/研究/所/取得/的/成就,在不同的文本分词切割下会有不同的语义。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
今天来聊一聊计算机技术中的语言结构和类别是否真的存在
信息抽取领域的子任务—关系抽取
以文本为基础的社会科学研究:从内容分析到算法模型
自然语言处理的若干问题
自然语言处理的这些应用你知道吗?
工学博士学位论文 汉语句法歧义消解的统计方法研究
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服