文本数据

词源

文本指的是由一定的符号或符码组成的信息结构体，这种结构体可采用不同的表现形态，如语言的、文字的、影像的等等。文本数据来源于自然语言，具有如下特点：半结构化、高数据量、语义性。

基本内容

文本数据通常指英文字母、汉字、不作为数值使用的数字（以单引号开头）和其他可输入的字符。文本数据不同于传统数据库中的数据，具有以下特点：①半结构化。文本数据既不是完全无结构的，也不是完全结构化的。文本可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量的非结构化的数据，如摘要和内容。②高数据量。一般的文本库中都会存在至少数千个文本样本，对这些文本进行预处理、编码、挖掘等处理的工作量是非常庞大的，因而手工方法一般是不可行的。③语义性。文本数据中存在着一词多义、多词一义，在时间和空间上的上下文相关等多种复杂情况。

文本分析是处理文本数据的常用方法，指对文本的表示及其特征项的选取。文本分析过程可以包括：①词性分析，如自动分词，命名实体识别，词性标注等。②句法分析，如确定句子句法结构，句子中词汇之间的依存关系。③语义分析，如词义消歧，语义角色标注，指代消歧等。

而文本挖掘是在文本分析的基础上、从大量文本数据中抽取出有价值的知识，并且利用这些知识重新组织信息的过程。文本数据的挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识发现，是图像、语言、自然语言理解与知识挖掘中的重要内容。文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

研究方向

文本数据处理的研究方向有：机器翻译，自动文摘，信息检索，文档分类，问答系统，信息过滤，信息抽取，文本挖掘，舆情分析，隐喻计算，文字编辑和自动校对，作文自动评分等。文本处理涉及形态学、语法学、语义学、语用学等几个层次的问题，应用领域非常广泛。

研究面临的主要困难是歧义消解问题和未知语言现象的处理。歧义消解是文本处理分析的要解决的基本问题，在汉语中，如举例所示：①自动化/研究所/取得/的/成就；②自动化/研究/所/取得/的/成就，在不同的文本分词切割下会有不同的语义。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。