打开APP

未登录

开通VIP，畅享免费电子书等14项超值服

开通VIP

首页

好书

留言交流

下载APP

联系客服

python：中文分词组件jieba的小应用

userphoto

dinghj >《自然语言处理》

2013.11.21

关注

python：中文分词组件jieba的小应用

发表于28天前(2013-10-23 15:14) 阅读（16） | 评论（0） 0人收藏此文章, 我要收藏

赞0

python jieba 中文分词

`01`	`# -- coding: utf-8 --`

`02`	`import` `jieba.posseg as pseg`

`03`	`import` `linecache`

`04`	`import` `jieba`

`05`	`import` `time`

06

`07`	`'''获得待处理文件的行数↓↓↓↓'''`

`08`	`f_content` `=` `open(r'D:/a/test.txt',` `'r')`

`09`	`lineNum` `=` `0`

`10`	`for` `count, line` `in` `enumerate(f_content):`

`11`	`lineNum+=1`

12

13

`14`	`'''读取一行，把一行里面的第一个名词替换成关键词，再逐行写入另一个文件'''`

`15`	`i` `=` `1`

`16`	`j` `=` `1`

`17`	`for` `j` `in` `range(lineNum+1):` `#循环的次数等于行数，即一行执行一次如下代码`

`18`	`line_content=linecache.getline(r'D:/a/test.txt', i)#获取第i行内容`

`19`	`string` `=` `line_content.decode('gbk')`

20

`21`	`#print line_content`

`22`	`words` `=` `pseg.cut(string)`

`23`	`result` `=` `''`

`24`	`amount` `=` `1` `#引入amount，这样就可以仅仅替换一行中出现的第一个名词，后面的不替换`

`25`	`for` `w` `in` `words:`

`26`	`if` `w.flag` `==` `'n'` `and` `amount` `==` `1:#n 是词语的属性`

`27`	`amount+=1`

`28`	`w.word` `=` `'haha'` `#haha为要替换的关键词`

`29`	`result+=str(w.word)` `#这个有点妙，喜欢`

`30`	`f` `=` `open('d:/a/new.txt','a')`

`31`	`f.write(result)`

`32`	`f.close()`

33 i+=1

34 j+=1

下面这篇是网络上看到的，原创是谁不知道，不是我就是了。对了解jieba如何运用有帮助

`01`	`#coding=utf-8`

`02`	`import` `jieba`

`03`	`import` `jieba.posseg as pseg`

`04`	`import` `time`

`05`	`t1=time.time()`

`06`	`f=open("t_with_splitter.txt","r")` `#读取文本`

`07`	`string=f.read().decode("utf-8")`

08

`09`	`words` `=` `pseg.cut(string)` `#进行分词`

`10`	`result=""` `#记录最终结果的变量`

`11`	`for` `w` `in` `words:`

`12`	`result+=` `str(w.word)+"/"+str(w.flag)` `#加词性标注`

13

`14`	`f=open("t_with_POS_tag.txt","w")` `#将结果保存到另一个文档中`

`15`	`f.write(result)`

`16`	`f.close()`

`17`	`t2=time.time()`

`18`	`print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。")` `#反馈结果`

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

打开APP，阅读全文并永久保存查看更多类似文章

猜你喜欢

类似文章

【热】打开小程序，算一算2024你的财运

使用jieba分词对中文文档进行分词|停用词去重

使用jieba分词计算txt中文本的词频

Python文本分析：大六壬课经的学习建议

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

手把手教你对文本数据进行分词、词频统计和可视化（附完整Python源码）

python 抓取上交所、深交所互动版块的投资者提问（散户评论）

更多类似文章 >>

生活服务

热点新闻

分享收藏导长图关注下载文章

绑定账号成功
后续可登录账号畅享VIP特权！

如果VIP功能使用有故障，
可点击这里联系客服！

联系客服