打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火

商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。

 

“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍贵。

 

CDA数据分析研究院2017年出版了首本R数据挖掘教材,为了告诉你R语言和数据分析有多火,用数据说话,我爬取了京东商城《用商业案例学R语言数据挖掘》书评,来告诉你…..

 

从京东的1400+评论从看到,好评1400+,中评10+,差评8。好评率98%。

以下是从京东商城爬取到的部分数据,共有674条记录,存入到excel文件下,。


 

首先,使用Rwordseg进行中文分词


我们知道,中文自然语言处理领域最基础的技术是分词。基础是因为,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。对于中文的语言处理,首先要把词语进行切分,才能进行更深层次的语言处理。


中文分词比较有名的包非Rwordseg和jieba莫属,他们采用的算法大同小异,这里用Rwordseg来做简单演示。

 

1.   设置工作目录并读取数据

setwd('D:/R')

library(openxlsx)

data=read.xlsx('R.xlsx',1,colNames = T,rowNames = F)

 

2.   加载所需包,这里使用Rwordseg包进行中文分词

library(rJava)

library(Rwordseg)

library(tm)

 

比如我们使用Rwordseg包对第一行进行分词

segmentCN(data$comment[1]) 

分词效果如下:

[1] '梦寐以求''的'      '有'       '很多'     '案例'   

 

3.   导入搜狗词库(机器原始分词总有不如意的地方,因此需要添加词、词库来做参照)

insertWords(c('很好','不错'))##手动增加词

installDict('语文教学词库.scel',dictname ='words')

 

4.   对所有评论信息进行进行分词并计算各个词汇出现的频次,按照词频排序

dataseg=segmentCN(data$comment)   ##对所有评论进行分词

freq =table(unlist(dataseg))   ##计算各个词汇的出现频次

freq =rev(sort(freq))   ##对词频排序

 

5.   构造词汇和词频的数据框

myfile.freq=data.frame(word=names(freq),freq=as.vector(freq),stringsAsFactors= F)

myfile.freq =myfile.freq[-1,]  #删除第一行


然后,我们使用Wordcloud2进行词云展示


Wordcloud2被誉为是可能是目前最好的词云解决方案,调用一个 JS 的库 (wordcloud2.js) 实现 wordcloud。有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。如果你没有安装过,可以执行install.packages('wordcloud2')进行简单的安装。


1.   加载包

library(wordcloud2)


2.   绘制词云图

wordcloud2(myfile.freq,size = 1, fontFamily = '微软雅黑',  

color = 'random-light',backgroundColor = 'grey') 


效果如下:



如果你想换个图形,比如想画个星星,那么

wordcloud2(myfile.freq,size = 1,shape = 'star', color = 'random-light', backgroundColor ='grey') 


 

还可以根据图片或者文字制作定制化词云,比如画个小猴子:

monkey= system.file('examples/monkey.png',package ='wordcloud2') 

wordcloud2(myfile.freq,figPath = monkey, size = 1,color = 'random-light', backgroundColor ='grey')



关于词云图,大小代表词汇出现的频率,所以我们可以看出,通过关键词不错、好、专业、易懂、推荐、必备、清晰等词可以看出本书的评价还是不错的,是一本值得学习的书籍。另外的一类词京东、速度、快、正版、包装等多是评论京东物流和图书质量。

 

后续:本篇文章只是作为一个趣味性的了解,里面的技术细节也没有深究,比如去停用词、文本分类等。实际上文本数据作为非结构化数据而言,可以经过处理后变成结构化数据,通过数据挖掘模型发掘更有趣的知识发现。

 

最后打波小广告,如果你对R语言数据分析感兴趣,欢迎参加CDA-R语言专题课程,学习数据分析技能,成为优秀的R语言数据分析专家。

 

R语言最近开课


时间:2018年3月10日~4月01日

地点:北京面授&全国直播

 

这门课程学什么?


第一阶段:数据分析概念与R编程

第二阶段:数理统计与SQL数据库

第三阶段:数理统计与数据可视化

第四阶段:统计推断与精益管理

第五阶段:市场分析方法与模式识别模型

第六阶段:客户分析方法与分类模型

第七阶段:时间序列与综合案例

第八阶段:综合案例分析

第九阶段:[线上选修]Mysql数据库基础知识

第十阶段:[线上选修]Tableau数据可视化

 

这门课程谁来教?


常国珍

CDA数据分析师讲师/北京大学商学博士


曾就职于亚信科技商业运营咨询部、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。

 

杨柳

CDA数据分析研究院讲师/经济学博士


2014年8月毕业于美国纽约州立大学,现任教于南京大学商学院产业经济学系。研究方向为计量经济理论和经济预测。长期从事R语言开发及其在计量经济学中的应用研究,积累了丰富的编程经验。主持并参与多项金融和宏观经济的课题项目,对如何应用R语言进行数据分析和挖掘有深刻的认识和独到的见解。

 

是否有优惠?

1. 全日制在读学生8折优惠(需提供学生证件证明);

2. 参加过论坛其他现场班老学员9折优惠;

3. 三人及以上9折优惠,五人及以上8折优惠;

4. 同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。

 

如何参加?

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
用R进行文本挖掘与分析:分词、画词云【2】
中文分词实践(基于R语言)
新浪微博文本分析初探 | 统计之都
绘图系列|R-wordcloud2包绘制词云
python的requests
用R进行文本分析初探——以《红楼梦》为例
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服