打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据在选题策划中的应用
摘要

【据全球权威的IT研究与咨询公司Gartner于2013年9月发布的大数据分析报告显示,全球范围内的媒体和通信行业以及银行金融业站在了大数据投资的最前沿。相比之下,出版业作为文化产业,承载着文化传播与文化传承的社会功能,然而在利用大数据洞悉读者需求上表现欠佳,所以,如何借助不断增长的大数据进行信息和知识的搜集、组织和传播,成为出版企业亟待解决的问题。】

出版企业可利用的大数据的具体形式

对于“大数据”(Big Data),研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。举个例子,1分钟的时间内,新浪发送2万条微博,苹果下载4.7万次应用,淘宝卖出6万件商品,人人网发生30万次访问,百度产生90万次搜索查询。由此可见,数据规模的急剧膨胀,各行业累积的数据量越来越巨大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个“无穷大”的概念才会应运而生。大数据的特点可以被归纳为:数量巨大、类型多样、实时快速、价值高但密度低。正式基于这样的特点,出版企业可以结合产业的优势对大数据进行充分的挖掘和利用。

(1)Web文本挖掘。大数据的核心是挖掘庞大数据库的独有价值。面对因为网络的飞速发展而带来的信息膨胀,尤其是以半结构化或非结构化为主的文本信息,人们迫切需要研究出方便有效的工具去从中提取符合需要的“简洁的”“精炼的”“可理解的”知识,Web文本挖掘技术由此产生。而利用Web文本挖掘发现大数据的价值也成为可能。

文本挖掘是近几年来数据挖掘领域的一个新兴分支。文本挖掘也称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取事先未知的“可理解的”有潜在实用价值的模式和知识。而随着网络技术的飞速发展,特别是Web应用的不断普及,网络信息急剧增加,信息类型也越来越复杂。如何从这些大量自由、非结构化或半结构化的信息中获得所需求的知识,传统的数据挖掘技术已不适用,解决问题的一个途径就是将传统的文本挖掘技术和Web综合起来,进行Web文本挖掘。Web文本挖掘就是以万维网上的数据为分析对象,以抽取有用知识为目标,把传统文本挖掘技术和万维网相结合的研究技术。

(2)出版企业可利用的Web文本数据。网络上图书评论的数量极为庞大,有些畅销书可能包含成千上万的评论,借助Web文本挖掘技术能自动地对图书评论进行分析和处理,挖掘出有用的信息。通过对图书在线评论的挖掘管理,出版企业可以用较低的成本收集、整理读者对于各类图书的关注兴趣和欣赏特点,同时也可以获得畅销图书迎合市场需求的关键因素。在此过程中,企业获得了知识资源,同时培育了持续的竞争优势。因此,可以将各大图书销售网站的读者评论作为出版企业可利用的大数据分析的首要来源。

在企业的销售网站或其借助的其他互联网销售平台上,通过建立在线评论客户知识管理系统,收集、整理和分析客户评论,将客户评论转化为企业的知识,从而为企业价值链的各个环节提供客户的信息和知识的共享,并将客户知识延伸到企业的决策制定中,为企业有效开展客户知识管理提供有效的解决方案。同时,基于评论挖掘构建的客户知识管理系统,具有与用户需求同步的快速响应能力,即具有将用户需求迅速转向图书的策划和印制的能力。这就使得出版企业以响应市场需求为中心,实时挖掘客户知识,提高优化客户关系的决策能力,准确及时地向客户提供所需的图书产品。

大数据在选题策划中的应用
信息收集和预处理

相对于传统数据库中的完全结构化的数据而言,Web数据的最大特点就是半结构化。从评论挖掘的角度来看,Web上的网页包含的信息并不都是有用的,体现网页的主题信息的是“主题”内容;与主题内容无关的导航条、广告信息等内容则是“噪音”内容。网页净化过程就是去掉包含噪音内容的内容块,只保留网页中包含主题内容的内容块。因此在评论挖掘的数据预处理阶段,首要任务就是完成Web网页净化过程,去除网页内容中的音频、视频、图片等其他非文本信息,还有各种网页本身的标记语言,最后仅剩下网页中的文字评论内容,从Web页面中提取出文本评论信息。

评论页面的下载可以采用聚焦爬虫技术,所谓聚焦爬虫,是能实现自动下载网页功能的程序,它根据指定的抓取目标,有选择地获取万维网上的网页及其相关的链接,抓取所需要的信息。通过对Web页面的语义结构进行描述,产生适合计算机自动处理的描述文件和指令文件,实现持续地、大批量地提取Web信息。

图书特征提取和情感分析

评论内容是中文语句,要从中提取词语,进而获得读者关注的图书特征,首先需借助中文分词技术。中文分词技术属于自然语言处理技术领域,它通过词性标注将一个汉字序列切分成相互独立的词,文本挖掘的基础是中文分词,一段中文要使得计算机自动识别语句语义,必须通过准确的中文分词处理。在中文分词和词性标注的基础上,使用汉语分词软件的关键词提取功能提取评论内容中的关键词,按照权重排序找出高频名词或名词性短语作为候选词汇,通过人工定义和筛选,得到读者评论中的图书属性特征词集合。

挖掘出的图书的读者关注特征,是读者图书评论中最集中和最热点的特征,但每项特征具体的评价倾向性还需进一步分析和处理,即通过提取读者对每项关注特征所持有的褒贬态度,分析其评价情感倾向性。情感词可以细分为情感特征词汇和情感强度词汇。客户评论中的情感特征词是客户表明自身观点和态度的词汇,而情感强度词是指评论中用于加强语气的程度副词,如“最”“非常”和一些否定词。这些词的修饰会加强或减弱,甚至改变原来词汇的情感倾向,在判断评论的情感时要考虑这些强度词语的作用。

利用信息完成选题策划

采用Web文本挖掘技术,从海量的读者评论中挖掘出的图书特征和其情感倾向,为图书的选题策划提供了充分的信息资料,这将为图书选题的市场前景分析提供保障,最大限度地降低图书出版的风险.使出版社的图书在市场竞争中始终处于有利地位。利用挖掘出的信息完成图书选题策划主要分为以下几个阶段:

(1)筛选正向评价的图书特征。选题策划应该从挖掘出的读者关注特征中筛选其正向评价,从而确定目前市场中读者主要感兴趣的图书特征。例如,假设从亚马逊图书网站的少儿图书销售排行榜的前2本图书的读者评论中挖掘出了读者关注的图书特征为“百科,科学,绘画,配图,价格,拼音,习惯,动物,纸质,图案,常识”,然后可以利用软件技术筛选其中正向评价的特征,假设筛选出的是“百科,科学,绘画,价格,拼音,习惯,动物”。那么这些正向评价的特征就是选题策划中应该重点考虑在图书题目和设计中的要素。

(2)建立图书选题策划概念层次树。虽然正向评价的图书特征已经找到,但并不是都能在最终的题目中展示的,一部分可以稍作修改列入图书题目,另一部分则只能体现在图书的装帧设计环节,例如纸张、配图、拼音和价格等。所以需要为图书建立选题策划概念层次树。经过严格划分层次的树状结构是图书选题策划概念树的结构形式,图书选题策划的总概念作为根节点,较小或最小子概念作为叶子节点,图书特征属于叶子节点。上层概念名称概括的是其包含的所有子概念属性,子概念名称是详细划分父概念后从不同的角度描述的父概念。兄弟概念指同一个父概念所包含的所有子概念,它们属于平等关系。用产品评价概念树表示的概念层次有两个特性:第一,树的节点表示概念,树枝表示有序关系;第二,有序关系包括了包含关系、属性关系、部分整体关系。例如,图1就是一个图书选题策划的概念层次树,主要分为选题内容设计和装帧设计两个分支,设计者可以根据选题策划的领域知识和工作经验进行概念层次树的完善和更新。

(3)确定图书题目和装帧设计要素。将筛选出的图书正向评价特征,对照图书选题策划概念层次树,确定图书题目要素和装帧设计要素。例如,延续前面在亚马逊网站评论中筛选出的正向特征,能够列为图书题目要素的是“百科,科学,习惯,动物”,而列为图书装帧设计要素的是“绘画,拼音,价格”,这就为图书选题策划提供了迎合市场需求的准确决策信息,可以有效地帮助出版企业识别和判断选题的市场价值,并实时捕捉读者的心理期望和偏好。

选题策划基于数据更高于数据

大数据能说话,借助数据处理技术,能将海量数据中存在的有价值信息传递给每位需要它的用户。但作为一个出版人,我们要做到基于数据更高于数据,也就是在数据反映的有价值信息面前,充分发挥我们的创新性思维,不只局限于数据。图书选题策划除了捕捉读者的需求外,还需综合考虑其他各种信息,例如,政策和法律信息、经济与社会文化发展信息、科学技术信息、同行(竞争者)信息、作者信息等。

选题策划是一个非常复杂的系统工程,需要编辑在工作过程中不断地总结、实践、再总结,逐步积累经验,逐步完善。本文给出的大数据在选题策划中的应用只是涉及其中部分环节,其他环节如何对大数据进行有效利用将是今后研究工作的方向。
(作者单位系气象出版社)



出版参考谢谢您的关注

《出版参考》杂志由国家新闻出版广电总局主管,中国版协国际合作出版工作委员会与中国新闻出版研究院共同主办,是一本涵盖中外新闻出版的资讯期刊。《出版参考》创刊于1988年,是我国新闻出版界创办最早的权威资讯类期刊之一。二十余年来,本刊围绕新闻出版行业,服务改革发展大局,报道政策走向,提供实用信息,推介优秀书刊,促进国际交流。每年出版参考杂志社主办的输出版、引进版优秀图书推介活动和全国优秀审读报告评比活动,亦获得了新闻出版界的广泛关注。

出版参考杂志 征订信息

联系人:刘宇阳 手机:13911055000

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据背景下的畅销书选题技术操作
【NLP】使用AutoX_nlp自动化提取文本特征
使用文本挖掘技术进行小说《圣墟》评论的情感分析——基于python
关注可视化文本分析中的技术优势——基于全国教育科学规划教育技术类课题的命题分析
Web挖掘技术
人工智能在银行工单处理中的应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服