打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
python:中文分词组件jieba的小应用

python:中文分词组件jieba的小应用

发表于28天前(2013-10-23 15:14)   阅读(16) | 评论(00人收藏此文章, 我要收藏
0

01# -*- coding: utf-8 -*-
02import jieba.posseg as pseg
03import linecache
04import jieba
05import time
06 
07'''获得待处理文件的行数↓↓↓↓'''
08f_content = open(r'D:/a/test.txt', 'r')
09lineNum = 0
10for count, line in enumerate(f_content):
11    lineNum+=1
12 
13 
14'''读取一行,把一行里面的第一个名词替换成关键词,再逐行写入另一个文件'''
15i = 1
16j = 1
17for j in range(lineNum+1): #循环的次数等于行数,即一行执行一次如下代码
18    line_content=linecache.getline(r'D:/a/test.txt', i)#获取第i行内容
19    string = line_content.decode('gbk')
20     
21    #print line_content
22    words = pseg.cut(string)
23    result = ''
24    amount = 1 #引入amount,这样就可以仅仅替换一行中出现的第一个名词,后面的不替换
25    for w in words:
26        if w.flag == 'n' and amount == 1:#n 是词语的属性
27            amount+=1
28            w.word = 'haha' #haha为要替换的关键词
29        result+=str(w.word) #这个有点妙,喜欢
30    f = open('d:/a/new.txt','a')
31    f.write(result)
32    f.close()
33    i+=1
34    j+=1

下面这篇是网络上看到的,原创是谁不知道,不是我就是了。对了解jieba如何运用有帮助

01#coding=utf-8 
02import jieba 
03import jieba.posseg as pseg 
04import time 
05t1=time.time() 
06f=open("t_with_splitter.txt","r") #读取文本 
07string=f.read().decode("utf-8"
08   
09words = pseg.cut(string) #进行分词 
10result=""  #记录最终结果的变量 
11for w in words: 
12     result+= str(w.word)+"/"+str(w.flag) #加词性标注 
13   
14f=open("t_with_POS_tag.txt","w"#将结果保存到另一个文档中 
15f.write(result) 
16f.close() 
17t2=time.time() 
18print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
使用jieba分词对中文文档进行分词|停用词去重
使用jieba分词计算txt中文本的词频
Python文本分析:大六壬课经的学习建议
手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
手把手教你对文本数据进行分词、词频统计和可视化(附完整Python源码)
python 抓取上交所、深交所互动版块的投资者提问(散户评论)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服