打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
有关自动分词软件!高分相赠!
CSDN -技术社区 -
主  题:有关自动分词软件!高分相赠!
作  者:zhizhuwang (蜘蛛)
信 誉 值:96
所属论坛:C/C++ C
问题点数:0
回复次数:7
发表时间:2002-12-05 22:05:53Z
有那位知道自动分词软件的原理
回复人: imwj(江江王) ( ) 信誉:99 2002-12-05 22:16:52Z 得分:0
分什么词
Top
回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-05 22:23:37Z 得分:0
你要基于统计的还是基于语料的?
Top
回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-06 00:34:23Z 得分:0
自动分词技术总起来说现在还没有一种比较完美的解决方案.现在普遍的问题就是识别率太低(从各个搜索引擎就能看出来).有人作过一些研究,比如:串频统计和词形匹配相结合的汉语自动分词系统作者 刘 挺 吴 岩 王开铸作者单位 哈尔滨工业大学计算机系  1 50 0 0 1http://naxun.sjtu.edu.cn/articles/zhongwenxinxixuebao/comment.asp?article_name=串频统计和词形匹配相结合的汉语自动分词系统http://www5.nlc.gov.cn/disk4/xuehui/2000nianhui/xsjl-2xm.htm你自己去www.google.com,用"自动分词"查一下,有不少有用的东西.
Top
回复人: linxi075(林夕) ( ) 信誉:100 2002-12-06 10:07:38Z 得分:0
根据定义分隔符(可以自己定义)分词:如空格,Tab,分号,逗号,引号等,碰到分隔符,就认为是一个单词即可,很简单的,自己都可以写一个简单点的试试。
Top
回复人: typet1999(有钞票咯) ( ) 信誉:100 2002-12-10 21:42:18Z 得分:0
可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。 1、 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大 的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词 ) 。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先 匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程 相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械 分词方法如下; 1) 、正向最大匹配 2) 、逆向最大匹配 3) 、最少切分(使每一句中切出的词数最小) 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法 结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般 很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错 误率为1/245。(--这可能是因为汉语的中心语靠后的特点。)但这种精度还远远不能满 足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大 基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词 作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和 切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进 机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助 ,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的 准确率。 对于机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m),即 Automatic Segmentation Model。其中, d:匹配方向,+1表示正向,-1表示逆向; a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字; m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。 例如,ASM(+, -, +)就是正向减字最大匹配法(即MM方法),ASM(-, -, +)就是逆向减字 最大匹配法(即RMM方法),等等。对于现代汉语来说,只有m=+1是实用的方法。 用这种模型可以对各种方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查找 和相同的计首字索引查找方法,则在不记首字索引查找次数(最小为log<汉字总数> = 12 - 14)和词典读入内存时间的情况下,对于典型的词频分布,减字匹配ASM(d,-,m)的 复杂度约为12.3次,增字匹配ASM(d,+,m)的复杂度约为10.6。 另外,还可以证明,早期曾流行一时的"切分标志字串"预处理方法是一个毫无必要的技术, 它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切 分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记 歧义字段的任何信息。因此,在近来的分词系统中,已经基本上废弃了这种"切分标志" 预处理方法。 2、基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续 过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基 本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧 义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控 部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧 义进行判断,即它模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 3、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可 信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。 定义两个字的互现信息为: M(X,Y)=logP(X,Y)/P(X).P(Y),其中 P(X,Y)是汉字X、Y 的相邻共现概率,P(X) 、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字 之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了 一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做 无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度 高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等, 并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本 的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将 串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了 无词典分词结合上下文识别生词、自动消除歧义的优点。
Top
回复人: TheAres(班门斧) ( ) 信誉:100 2002-12-20 23:44:10Z 得分:0
唉,这种帖子,回答的还满有兴致,贴主都忘了. up一下.
Top
回复人: zhizhuwang(蜘蛛) ( ) 信誉:96 2002-12-21 09:25:44Z 得分:0
还要解决C中汉语字符的的处理问题,我对这个想的不是很清楚那里有源码,我想找来研究研究!
Top
该问题已经结贴
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
中文分词和搜索引擎
搜索引擎的工作机制[图]
关于MMSEG分词算法
中文分词技术(中文分词原理)
基于规则的分词
中文分词算法笔记
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服