打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
本期聚焦 | 数据驱动的图书销量预测理论框架研究

核心观点

  • 数据驱动的图书销量预测旨在通过出版大数据和市场需求预测方法,将情境数据纳入图书销量预测模型,判断用户情感状态,分析用户群体行为,推测未来的销量。

  • 数据驱动的图书销量预测可解决传统图书销量预测方法存在的认知偏差、数据时滞、数据缺失等问题,有望成为破解同质化问题、优化需求管理、提升有效供给的大数据赋能手段。

  • 图书销量预测研究的理论基础可从认知心理学、计量经济学、计算传播学、机器学习等视角进行解释。认知心理学视角主要关注预测的偏差及产生原因,采用历史数据和情境数据来提高预测准确度;计量经济学视角侧重从经济角度考查图书销量与其影响因素的因果关系,影响因素的全面测度是提升统计预测准确度的关键;计算传播学视角侧重于将口碑因素纳入新产品扩散模型,为数字时代的图书销量预测尤其是缺少历史数据的新书销量预测提供了可能的路径;机器学习视角侧重于采用人工智能模型从海量的历史销量数据及相关文本数据中发掘出有价值的信息,与其他模型的优势相结合进行组合预测,有助于在销量预测上更接近真实。

  • 综合集成计量经济模型、新产品扩散模型、人工智能模型等,并将在线评论情感分析纳入图书销量预测理论框架,该理论框架包括数据获取与预处理、图书在线评论情感指数构建、图书销量预测模型构建和图书销量预测模型效果评价四个模块。

  • 图书销量预测研究面临多源异构数据汇聚问题和预测建模的跨学科问题带来的挑战。本文所构建的数据驱动的图书销量预测理论框架倾向于从理论、方法、路径上提供总体设计,但是在实际应用中,销量预测的成功在很大程度上与图书供应链的反应程度、出版机构的数字化水平、大数据赋能等密切相关。随着更多的出版机构通过搭建大数据平台将资源数据、运营数据、用户行为数据等进行有效整合和共享,图书供应链将朝着数字化、全渠道、全链路的方向发展,图书销量预测方式将融合算法、数据、场景三要素,推动图书行业数据智能的迭代发展,为供需精准对接提供科学依据。

题目 | 数据驱动的图书销量预测理论框架研究 *

来源 | 《出版与印刷》2022年第3期

作者 | 任娟

作者单位 | 上海出版印刷高等专科学校, 上海出版传媒研究院

Doi | 10.19619/j.issn.1007-1938.2022.00.044

*基金项目:  教育部人文社会科学研究青年基金项目“基于在线评论情感分析的图书销量预测研究”(编号19YJCZH130)。

引用参考文献格式:

任娟.数据驱动的图书销量预测理论框架研究国[J]. 出版与印刷, 2022(3): 10-22.

摘要 | 图书在线评论是图书销量的关键预测指标和口碑传播方式。文章梳理和总结了四种理论视角下的图书销量预测研究,从图书特征和图书网络口碑两个层面分析影响图书销量的主要因素,以图书在线评论为例,构建数据驱动的图书销量预测理论框架,将在线评论情感分析纳入图书销量预测框架,并对核心内容模块和关键问题解决思路进行解析。所构建的数据驱动的图书销量预测理论框架可以为图书行业市场调查与营销管理提供深度剖析,为出版机构运营管理提供理论依据。

关键词 | 数据驱动;图书销量预测;图书在线评论;情感分析

→ 查看HTML全文

一、引言

图书销量是衡量图书产品市场表现及出版单位经济效益的主要指标,也是测度图书产品社会效益的基本参照,是实现“双效统一”的评价要素。我国出版业存在图书产品同质化、图书生产与读者需求脱节、有效供给不足等问题,导致供需失衡。传统的图书销量判断预测依赖于编辑的直觉预测与信心判断[1]46,统计预测依赖于历史销量数据的采样范围、时效性。大数据时代,图书销量预测是出版大数据预测的重要组成部分,如何推进数据驱动的图书销量预测成为学界和业界关注的一个重要问题。数据驱动的图书销量预测旨在通过出版大数据和市场需求预测方法,将情境数据纳入图书销量预测模型,判断用户情感状态,分析用户群体行为,推测未来的销量。因此,数据驱动的图书销量预测可解决认知偏差、数据时滞、数据缺失等问题,成为破解同质化问题、优化需求管理、提升有效供给的大数据赋能手段。

《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中指出,“十四五”时期经济社会发展要以推动高质量发展为主题,以深化供给侧结构性改革为主线。供给侧结构性改革的核心是实现有效供给,有效供给依赖于对有效需求的精准识别,而内容创新也离不开供需精准对接。一方面,数据驱动的销量预测成为出版的数字赋能、大数据赋能工具,有利于实现需求精准预测。从供给侧入手,运用数字技术和工具,推动数字赋能出版,在存量上减少无效供给,在增量上扩大中高端供给,有利于提高供给质量、供给效率和全要素生产率,促进内容创新与产品创新;从需求侧着眼,运用大数据技术和方法,推动大数据赋能出版,洞悉新需求,发现需求变化,有利于创新数据驱动的生产、传播和消费方式,促进需求创造与需求精准预测。另一方面,数据驱动的销量预测成为出版业需求识别、市场洞察、营销预警工具,有利于实现供需精准对接。供给侧结构性改革的内在逻辑是着力解决市场规模、市场结构、时空限制等方面的供需匹配,实现供需精准对接[2]。一是寻找并满足新需求、中高端需求,通过全民阅读、出版“走出去”等扩大市场需求,实现市场规模上供需匹配;二是推动内容创新和产品创新,通过主题出版、书号总量控制等优化供应结构,实现市场结构上供需匹配;三是推动融合出版、国际化发展,通过网络营销、按需出版等打破时空限制,实现供需匹配。因此,数据驱动的图书销量预测是保证出版供需精准对接、深化供给侧结构性改革的重要工具。

另外,与图书同属于体验型文化产品的电影,近十年来在票房预测和电影营销等方面的实证研究发展迅速,并在驱动电影业务发展中得以应用。因此,探索数据驱动的图书销量预测成为我国出版学术研究的一项重要课题。

二、图书销量预测研究的理论视角

1.认知心理学视角

判断预测是指预测者综合经验丰富、学识渊博的专家和其他相关人员的意见,根据已掌握的直观材料和历史资料,运用个人的经验和分析判断能力,对事物的未来发展趋势做出判断。[3]劳伦斯(Michael Lawrence)等[4]对1980—2005年间在经济心理学、社会心理学、实验心理学领域发表的200多篇以判断预测为主题的文献进行了综述,将历史数据(historical data)定义为用于预测的产品销售历史记录,将历史数据之外的数据作为领域数据或情境数据(domain or contextual data),并定义为用于理解过去和预测未来的所有其他数据,包括过去和未来的促销计划、竞争对手数据、制造数据和宏观经济预测数据。塞弗特(Matthias Seifert)等人[5]33选择电台播放单曲的峰值位置、音乐视频的制作及其在音乐排行榜中的表现、最具影响力的行业杂志对单曲的专业性评论、唱片公司用于推广营销的费用、单曲是否是已发行专辑的一部分、同一周的发行唱片歌手及歌手地位作为情境数据,发现对于唱片这类需求不稳定的预测对象,预测者不依靠历史数据,只做情境数据分析的判断预测结果更准确。杨金花[1]47借鉴认知心理学理论,将参照类别(同类主题图书)的实现率、成功率、平均销量等分布性信息作为历史数据,将单一性信息(个案的特定证据)作为情境数据,引入销量预测校正程序,对编辑预测行为进行规范。杜秀芳[6]1001通过文献综述发现,提供反馈、分解、组合预测和建议采纳等策略,可以增进判断预测的准确性。

判断预测隐含的意义建构机制通常被视为一个模式匹配过程,在此过程中,预测者感知预测事件的信息刺激,并通过将其与过去经历的类似情况相比较来进行推理。[5]34历史数据和情境数据能够提高判断预测准确度的原因在于,一方面,通过提供历史数据能够增加模式匹配的成功概率;另一方面,通过提供更多的情境数据,包括促销活动、媒体报道、网络口碑、竞争情报等一般性领域知识相关的产品特定信息,能够帮助预测者更好地理解真实情况中发生的、对预测产生较大影响的事件或活动。

综上所述,认知心理学视角的图书销量预测,主要关注预测的偏差及产生原因,采用历史数据和情境数据来提高预测准确度,包括判断预测和组合预测(判断预测与统计预测相结合)两类方法。判断预测是将编辑判断预测作为选题决策、库存管理的重要环节,依赖编辑经验和领域知识,采用直觉预测,预估首印量、重印量等。判断预测存在主观性、可验证性差、处理复杂问题的能力和科学决策能力不足等局限。组合预测通过企业内部数据测算判断预测的准确度,将其作为基于历史数据的统计预测量和基于情境数据的直觉预估量的组合权重设置依据,以一定的统计预测规则校正直觉预估量;也可利用企业ERP系统中的印数评估、库存测评等模块进行统计预测,运用判断预测调整统计预测。

2.计量经济学视角

统计预测是指根据过去的情况和资料建立数学模型,并由此对未来趋势做出预测的一种非主观方法。[6]998主要分为回归分析预测、时间趋势分析预测、随机时间序列分析预测三类方法。回归分析预测利用线性相关关系、非线性相关关系,拟合成直线或曲线,用于基于截面数据、时间序列数据的中短期预测,可应用于不考虑环境变化的统计预测。时间趋势分析预测仅利用自身的历史数据观察趋势,可用于短期、中期、长期预测,可应用于未能全面发现影响因素的统计预测。随机时间序列分析预测利用时间序列的历史值及随机扰动项来预测未来变化,可应用于满足时间序列平稳性假设的统计预测。刘军和张冠勇[7]利用图书历史销量数据,提出了基于指数平滑、回归分析的图书需求预测方法。韩钦[8]将图书热度作为预测对象,以相似图书的历史热度时间序列预测新版图书热度,将时间序列分析模型应用于图书选题决策。曾文等[9]提出了基于图书出版行业大数据(在线评论数据、销量数据)的选题决策分析模型。

统计模型为统计预测提供了统计显著性和经济意义,计量经济学为统计预测提供了方法和分析模式。计量经济模型从经济角度考查销量与其影响因素的因果关系,影响因素的全面测度成为提升统计预测准确度的关键。计量经济学视角下图书销量预测过程包括预测指标测度、预测时间提前量确定、预测模型构建三个环节。

出版大数据为销量预测的影响因素的全面测度提供数据源,为在线评论等情境数据提供分析工具,有助于提升预测准确度。大数据时代,网络口碑(在线评论、微博)及其内在情感表达在一定程度上折射出社会集体的智慧和情感状态,而这种情感状态往往会影响个人行为决策的选择结果,并对社会活动具有一定的预测能力。[10]96大数据时代,随着在线评论的海量化、在线采集的工具化、用户情感的可计算,在线评论经济价值的量化与开发成为一个具有实证基础的研究方向。

格鲁尔(Daniel Gruhl)等[11]认为博客情感分析可用于预测图书销量排名峰值,博客提及量是图书销量预测的一个有效的先行指标,原因在于较早购买者的推荐会影响潜在用户的购买决策。孟园等[12]144通过实证发现,以月度为观察周期,细粒度情感指数的变动趋势要领先于产品销量的变动趋势,综合情感指数滞后1个观察周期时能提供最好的预测效果,滞后1-4个观察周期时能对销量预测起作用。

基于情感分析的图书销量预测主要包括用户评分量化预测、产品情感感知预测、属性情感感知预测三种思路。一是利用基于用户评分的粗粒度情感分析方法。谢瓦利埃(Judith A. Chevalier)和梅兹林(Dina Mayzlin)[13]利用亚马逊网站和巴诺网站的用户评分进行了粗粒度情感分析,建立了线性回归分析模型并验证了口碑说服效应。二是基于评论内容的粗粒度情感分析方法。李雪妮等[14]采用基于词典的方法对图书在线评论内容进行情感分析及量化,建立了情感感知自回归模型,发现纳入情感分析结果的模型在销量预测方面具有更高的准确性。张川 (Zhang Chuan)等[15]基于前景理论的“消极偏见”解释,即消费者对负面在线评论的态度比对正面在线评论更敏感,构建了一个基于情感分析、前景理论和宏观经济指标的自回归模型,利用历史销量数据、在线评论和宏观经济指标对中国汽车销量进行预测。该类研究仅考虑用户对产品的整体情感倾向。三是基于产品属性的细粒度情感分析的方法。孟园等[12]144采用领域本体和情感词典,构造了包含5个产品属性的细粒度情感指数,提出了基于ARMA模型(autoregressive moving average model,自回归滑动平均模型)的产品销量预测模型。相对于粗粒度情感分析,细粒度情感分析考虑用户对产品各属性的情感倾向,更贴近用户真实的情感表达。该类研究将在线评论与计量经济模型相结合进行组合预测,在销量预测效力上有较大改善。以上研究体现了图书在线评论作为图书销量的影响因素和预测因素的重要性,但现有大多数研究的目标是建立统计意义上的关系,而不是发展预测模型的行业应用。

现有关于图书的预测研究侧重于预测在销图书的未来销售表现,因为这类预测模型有更多可用的解释变量,包括在销图书的早期销售数据、促销活动及节假日效应、专家评论和用户评论等,在实际情况中图书销量的预测会受到这些因素的影响,因此,考虑更多高质量的情境数据,有助于模型产生更准确的预测结果。

3.计算传播学视角

由于只有少量甚至没有先前的销售数据,且需求模式不确定,导致新书销量预测的实现相对于在销书而言更加困难。新书销量预测并非完全不需要或没有数据可用。在图书正式出版前进行销量预测可以参考前文所述的判断预测进行同类参照的策略,但在新产品销量依赖网络口碑扩散效应的互联网时代,判断预测的“测不准”风险较大。计算传播学视角下的新产品扩散模型可以为新书销量预测提供一种可能的路径。计算传播学旨在基于人类传播行为的数字足迹,采用文本挖掘、情感分析、社会网络分析等带有显著计算特征的数据分析方法,以探究人类传播行为的表现模式和内在逻辑。[16]新产品扩散这一概念最早由美国学者巴斯(Frank M. Bass)提出,认为新产品扩散是在一定时间内,在大众传媒和口碑传播影响下,由率先采纳的少数消费者逐渐扩展为更多消费者的动态过程,并构建了经典Bass模型,通过综合外部宣传、推广效应以及在线评论产生的扩散效应预测产品采纳情况。[17]

基于Bass模型和情感分析的图书销量预测主要包括用户评分量化预测、产品情感感知预测两种思路。一是基于用户评分的粗粒度情感分析方法。早期的组合预测模型主要将在线评论指标如评论数量、评论评分等结构化数据作为影响销量预测的因素,没有考虑在线评论的情感倾向。如德拉洛卡斯(Chrysanthos Dellarocas)等[18]将电影在线评论统计维度指标纳入Bass模型,结合历史销售额和在线评论数据,发现电影在线评论的评论数量、口碑效价和口碑离散度均与未来的电影票房有显著正向关系,且预测精确度优于标准Bass模型。二是基于评论内容的粗粒度情感分析方法。王芳等[19]将口碑因素嵌入Bass模型,同时考虑口碑数量和正负情感对销量预测的影响,结果表明该模型能够很好地预测在线新产品需求。樊治平(Fan Zhi Ping)等[20]以汽车行业为研究对象,将Norton和Bass两人共同建立的Norton-Bass模型和基于HowNet情感词典(HowNet情感词典是在中文领域使用最广泛的中文情感词典)的情感分析方法相结合,利用历史销量数据和在线评论情感倾向构建销量预测模型。这篇文献在Scopus数据库被引用178次(截至2022年6月21日),某种程度上说明结合Bass模型和在线评论情感分析的销售预测模型具有广泛的应用领域价值。Bass模型提供了新产品的当前采用者和潜在使用者互动的基本原理,更适用于已经上市一段时间且产生了一些销售数据的新产品销量预测;如果新产品尚未正式上市,就需要参考类似产品的历史销售数据进行预测。Bass模型的预测准确性关键取决于模仿参数、创新参数和市场潜力等参数的确定。

4.机器学习视角

人工智能模型从海量的历史销量数据及相关文本数据中发掘出有价值的信息,采用人工神经网络、随机森林等算法对少量的非线性数据建模,预测中短期图书销量。

张毓隆(Alain Yee Loong Chong)等[21]通过设计大数据架构,结合情感分析和神经网络,探索大数据环境下销量预测的方法。研究发现在线评论、在线促销策略和用户情感都能预测产品销量,但这些变量的相互作用效应比单个变量本身对销售预测更为重要。梅蒂(Suman Kalyan Maity)等人[22]采用机器学习方法中的支持向量机模型(support vector machine,英文缩写SVM)和logistic回归模型进行建模,对Goodreads平台上的书籍相关数据进行跨平台分析,提取书籍阅读行为特征,将这些与亚马逊网站的书籍销售量进行关联,探寻亚马逊畅销书普遍具有的用户行为模式。王伟军等[23]提出一个整合微博公众情感状态、微博提及数、评论情感、评论数量的预测特征模型,采用多任务机器学习方法处理不同提前期的新产品市场预测问题,并用电影数据验证了方法的有效性。此类方法将传统销量预测模型、人工智能模型与体现产品重要市场信息的网络口碑结合,有助于在销量预测上更接近真实。

三、图书销量预测的影响因素

识别图书销量的影响因素是图书销量预测的前提和基础。影响图书销量的因素错综复杂,除了历史销量数据外,还与图书本身特征、外部动态环境因素有关,如图书质量、促销手段、同类书竞争、网络口碑、社会热点、随机事件因素等。借助大数据技术找出各变量之间的相关关系、因果关系,识别出重要的、数据可获得的影响因素,尤其是少数隐性但关键的因素,将其分解为不同的维度和具体指标,构建销量预测理论框架并进行建模,以尽可能减少预测与事实之间的偏差,是数据驱动图书销量预测的重难点所在。为了进一步明确图书销量预测模型的大数据基础,依据大数据的半结构化、非结构化数据特征,区分为大数据表达的以在线评论为代表的口碑传播因素和结构化数据表达的传统的图书特征因素。因此,本文将图书销量影响因素区分为图书特征相关的情境因素和以在线评论为代表的图书口碑传播情境因素。

1.图书特征因素

发行时间、类型及是否为续集、是否入选过畅销书榜单和榜单排名等图书自身特征因素,以及图书获奖等事件驱动因素与图书销量的关系,在以往实证研究中受到学者的广泛关注。

(1)图书发行时间

图书发行时间是图书生命周期曲线的起点,图书销量随着出版时间的延长而衰减的一般规律得到了研究验证。[24]美国《纽约时报》畅销书榜单中的虚构类图书和非虚构类图书绝大多数都在发行10周内达到销售顶峰,一本书发行的前几周非常重要,这是抓住读者兴趣以及图书营销宣传、书店重点推荐、社交媒体评论等发挥作用的关键时期。[25]6

(2)图书类型

已有实证研究中将图书类型纳入图书销量分析模型,但是依据不同的分类标准和研究需要,图书类型的定义在不同的文献中也存在较大差异,如依据体裁划分为虚构类、非虚构类两大类;依据图书内容、读者群体划分为科幻小说、犯罪小说等。[26]续集或是否为系列图书通常被认为是图书销量的影响因素之一。一般而言,续集类图书相对于普通新书,已经拥有一个相对稳定的读者群,某一系列的后续图书也会受到较多关注。此外,已有实证研究解释了虚构类图书作者比其他类型作者更多产,且更容易复制畅销书的成功的原因。[25]3

(3)图书排名

近几年,国内畅销书市场的头部效应日益明显。根据北京开卷信息技术有限公司的数据监控,2020年销量前1%的产品码洋贡献率为58.6%,前5%的产品码洋贡献率为82.3%。业内较有知名度的开卷畅销书榜单、当当网畅销书榜单都有“老书”畅销不衰、榜单相对固化等现象。造成这些现象的原因可能有:普通读者愿意选择经过大众和实践检验的作品以减少选择风险,出版机构受限于市场或书号限制更倾向于“老书重做”,出版业自身创新后劲不足等。国外学者对图书是否曾经入选畅销书榜单及其排名与图书销量的关系进行了实证研究,发现《纽约时报》畅销书榜单会对上榜图书的销量带来增长,且对那些作者是首次出书的畅销书销量影响更大。[27]这些学者的研究都验证了一般意义上图书的上榜及排名与销量的正相关关系。然而,针对我国图书排行榜门槛较低、缺乏固定分类标准的榜单市场现状,读者的态度会影响图书排行榜的传播效果,唯有那些客观公允的榜单才能对读者发挥积极、正向的引导作用。[28]

(4)事件驱动因素

相对于畅销书榜单注重图书销量而言,图书评奖活动更注重对图书的思想性、内涵价值、影响力等方面的评价,重在发现和推介好书。获得有公信力、权威性的重要奖项往往是图书高质量的体现。已有研究表明,图书获奖作为外部驱动事件,会带来获奖后的图书销量大幅增长。[29]图书奖项数据也被用于衡量图书认可度、社会效益等指标,纳入图书出版选题决策模型等研究中。[9]817此外,其他事件驱动因素的影响在图书销量预测研究中也不可忽视,如被知名媒体提及对图书产生的需求溢出效应[30]和文化类电视节目对图书销量产生的即时效应[31]等。

2.图书口碑传播因素

随着社会化网络和电子商务的快速发展,在线评论对图书销量的影响凸显。在线评论已经成为消费者获取和分享图书信息的重要渠道,当当网等图书电商网站、豆瓣图书等社交媒体平台成为消费者的决策参考来源,以在线评论为代表的口碑传播与图书销量关系成为图书销量预测的研究基础。本文考虑到网络口碑传播者的专业性、知名性、同质性对信息采纳者的影响差异,根据图书网络口碑传播者的身份、声誉等特征划分为专家书评、意见领袖书评和用户在线评论。

(1)专家书评

在图书生命周期的早期,由于专家书评体现的专业性或知名性,注重从内容视角传递图书质量,能够为市场的“跟随者”提供关于图书的知识和经验,因而成为大多数消费者购书决策的参考。克雷门特(Michel Clement)等[32]实证研究了德国最受欢迎的文学电视节目《文学四重奏》中的4位书评人对被评书籍销售成功的影响,发现专家书评是销量的影响因素之一。这一研究结论可能跟国外较早建立了成熟的独立书评机制有关,比如美国大学与研究图书馆协会(Association of College and Research Libraries,英文缩写ACRL)的Choice网站是一个著名的学术图书专家评论平台,它邀请美国最优秀的学者对最新的学术书籍进行评论,并定期把新书信息、书评和图书榜单发布在官网上,被公认为审查优秀学术图书的机构品牌。

目前,国内专家书评面临多种现实挑战。一是稀疏性。相比较而言,国内仍然缺乏健全的书评环境和机制,权威性高的专家评论数量较少且可见度不高,难以对大多数读者的购买决策产生影响。二是分散化。国内关于图书的专家评论分散在各个载体,包括发表在期刊上的书评论文、散落在报纸上的书评文章、主流平台评选的“中国好书”等榜单的专家推荐、图书腰封的评论文本,以及豆瓣图书频道等社交网络平台的专业性长评。

(2)意见领袖书评

除了相关领域专家,意见领袖发表的书评会引领群体行为、影响阅读选择,对图书销量的影响同样值得关注。杨华等[33]实证研究了网络口碑与消费者图书购买意愿的关系,发现传播内容特性对消费者图书购买意愿具有直接影响,传播者特性对图书购买意愿存在直接影响和以传播内容特性为中介的间接影响,认为应借助豆瓣书评、博客等文化推广式平台,充分发挥名人、意见领袖在书评方面的作用。

(3)用户在线评论

专家及意见领袖书评在某种程度上能反映图书的质量或影响力,而基于用户生成内容的图书在线评论则更多地体现图书的受关注程度和用户的综合评价。在不被恶意操纵的前提下,在线评论指标可以用于评价图书在原有受众圈层内外的读者群体中获得的更广泛教育或文化影响。[34]国外学者专注于在线评论与图书销量关系的学术研究起步较早,相对而言国内在这方面的学术研究起步较晚,研究成果主要分散在经济学、管理学、情报学等领域。龚诗阳等[35]从评论数量、评论效价维度验证了在线评论对图书销量有显著影响,评论差异有显著的负向影响,且在线评论的影响随图书生命周期而逐步减弱。随着数据挖掘技术的发展,许多学者对在线评论情感分析进行了深入研究。罗克拉格(Matthew D. Rocklage)等[36]认为星级评价不能作为对项目真实价值的有效性参考,预测了从1995年到2015年亚马逊网站上所有书籍的成功性,并发现了在线评论文本情感性因素比星级评价更能发挥预测作用,所有图书前30条评论中更多正面的情感性表达预示着更多的购买量,且这一结论在93%的图书类型中都适用。

综上所述,已有研究确立了在线评论作为图书销量的影响因素、预测因素的重要性,但大多没有提供可用于现实决策的具体模型。本文拟从图书特征和口碑传播两个方面,厘清影响因素和图书销量之间的预测机制,为构建数据驱动的图书销量预测理论框架提供有效的预测指标测度和理论解释。

四、数据驱动的图书销量预测理论框架构建:以图书在线评论为例

在前文分析的基础上,本文将在线评论情感分析纳入图书销量预测理论框架(见图1),将计量经济模型、新产品扩散模型、人工智能模型等进行综合集成。理论框架主要包括数据获取与预处理、图书在线评论情感指数构建、图书销量预测模型构建和图书销量预测模型效果评价四个模块。

图 1  数据驱动的图书销量预测理论框架

1.核心内容模块

(1)数据获取与预处理

作为图书销量预测理论框架的数据基础,这一步骤的主要目的是根据预测目标确定并获取反映图书销量影响因素的指标和数据,将内部数据与外部数据、结构化数据与非结构化数据进行汇聚,区分为图书历史销量数据集、图书特征数据集、图书在线评论语料库,重点在于对反映读者需求的图书在线评论数据进行采集与挖掘。首先,进行多源中文图书在线评论的基础语料库构建。采用网络爬虫工具在当当网、豆瓣读书、媒体专栏等不同平台上爬取读者书评和专业书评,将在线评论按信息来源和图书类别分类,并完成语料的初步情感标注工作,形成基础语料库;其次,利用中科院计算所的大数据语义增强分析平台(NLPIR)以及其他开源程序,进行分词处理、分句处理、词性标注和词频统计等数据预处理;最后,利用图书名称和ISBN等标识进行数据关联,实现多源中文在线评论的语料数据准备。

(2)图书在线评论情感指数构建

首先,采用本体建模技术和文本挖掘方法,分析多源图书在线评论文本的语言特点、语言模式和内容构成,基于语义相似度和共现关系,构建图书评论语料库和图书领域情感词典。识别概念间的整体部分关系、类属关系和属性情感关联关系,构建图书评论领域本体,实现图书在线评论的多维度聚合与语义提取。其次,基于图书评论领域本体和图书领域情感词典,提取图书产品属性及用户情感,判定情感倾向和情感强度,对在线评论的情感、属性、统计、质量四个方面进行量化,实现细粒度的评论解读。从主观和客观两个情感维度以及客观情感的内容、形式、价值、服务四个子维度出发,构造图书在线评论细粒度情感指数集。

(3)图书销量预测模型构建

通过描述性分析和相关性分析,对影响图书销量的重要变量进行筛选、描述和数据探索,结合实际业务,综合考虑模型预测准确性与模型可解释性的匹配度进行模型选择,将情感指数作为反映读者对图书情感的变量,结合发行时间、入选榜单情况、获奖等事件驱动因素所对应的变量,纳入计量经济模型、新产品扩散模型、人工智能模型,检验各影响因素对图书销量的影响和预测的作用机制,并对图书的销量预测进行实证研究。

依据情感指标纳入预测模型的方式,将基于情感分析的预测方法区分为以情感分析结果为主要依据、以情感分析结果为辅助依据两种方法。前者的基本流程包括文本分析、数据规范化、预测结果输出;后者的基本流程包括文本分析、数据规范化、指标集成、预测结果输出[10]100。以情感分析结果为主要依据的预测方法仅采用在线评论的情感计算指标,将情感指标作为图书销量预测单一的先行指标进行预测。以情感分析结果为辅助依据的预测方法,将情感指标作为图书销量预测的先行指标之一进行预测,将图书特征因素、历史数据等与销量预测具有相关关系的指标,结合情感指标进行指标集成,通过多指标集成提高预测准确度。由于这类预测模型有更多可用的解释变量,在实际情况中图书销量的预测会受到这些因素的影响,因此,考虑更多高质量的情境数据,有助于模型产生更准确的预测结果。

(4)图书销量预测模型效果评价

将不同的预测模型与基准模型进行对比,选择可靠的检验统计量、验证程序来检验模型的预测效果,并比较分析不同算法、模型对数据拟合能力的优势和劣势,进而调整、迭代、优化,以进一步提升模型的预测能力。图书销量预测最终要回归到业务应用层面,预测模型最直接的效果是能够进一步提升出版机构对图书市场舆情研判、前端预警和应对市场变化的能力,更好地支持出版业务决策。因此,预测模型效果评价必然要在出版业界专家、管理层对模型提供业务理论指导和实践经验总结的基础上,综合考虑模型的可解释性、可落地性和可扩展性。

2.关键问题解决思路

大数据时代,动态复杂的外部环境给图书销量预测增加了难度,在内外部多重因素的综合影响下,图书销量变化呈现出复杂性、非线性特征。而出版业传统的图书销量预测中缺乏需求端的数据,仅依靠出版机构已有的历史销售数据、图书物理属性数据和编辑经验进行未来销量估计,预测精度较差,这也是导致多年来我国图书行业库存较高、供需结构性矛盾的主要原因。目前,由于图书销量的影响因素类型和数据的多样性,以及用于图书销量预测的方法、模型和算法相对匮乏,围绕图书销量预测的研究面临极大挑战。

(1)多源异构数据汇聚问题

系统地收集图书销量影响因素对应的高质量数据是提高预测精确度的前提条件。大数据技术为图书销量影响因素的研究提供了多样化的数据源,为图书销量预测更接近现实提供了实现的可能。与图书基本特征数据不同,反映读者需求的图书在线评论广泛分布于不同的网络平台、图书馆、实体书店以及其他文化机构或媒体的相关数据或资料中,且多以非结构化数据形式呈现。针对多源异构数据信息单元之间的关系呈现非线性、多维性、模糊性的特点,数据获取与汇聚过程中要选择具有代表性、权威性、可获得性的数据源,将在线评论数据与图书特征数据进行深度关联,挖掘图书销量、用户购书决策及评价行为背后所隐含的深层原因,以减少预测的不确定性。在多源异构数据汇聚的研究过程中,面临着评论有用性识别、数据聚合和语义提取等实际问题。

(2)预测建模的跨学科问题

预测方法和影响因素同属于销量预测研究关注的重点。销量预测本身是一个商业问题,涉及经济、管理、计算机、传播学等多领域,具有典型的跨学科属性。大数据在为图书销量预测研究提供了更多维的影响因素的同时,也需要与之相适应的理论和研究方法。传统的图书销量预测方法以时间序列分析、自回归模型为代表,但这些经典模型难以捕捉大数据环境下的非线性特征。近年来,该领域的学者不断在预测方法和建模上进行优化,如引入机器学习以提高预测精度等。因此,如何借鉴先进的销量预测方法和技术应用到图书领域,结合影响图书销量的特定因素进行建模和实证研究,并用于指导出版实践是一项富有挑战性的工作。图书在线评论作为重要的销量预测指标,在研究中需要借助计算科学与复杂科学等跨学科视角,构建针对图书的社交网络信息传播模型;借助自然语言处理、文本挖掘等技术对多源异构图书在线评论数据进行质量判定、语义分析和情感倾向分析;借助出版领域专家和管理者意见对图书销量预测结果进行判断性调整,验证预测模型和算法的效果,这些工作都需要进行跨学科的探索和创新。

五、结语

基于图书在线评论情感分析的图书销量预测理论框架构建,有助于更深入地理解社会如何与图书产品进行互动,为全民阅读背景下实现图书“叫好又叫座”、社会效益与经济效益俱佳的场景提供了可能。本文所构建的数据驱动的图书销量预测理论框架倾向于从理论、方法、路径上提供总体设计,但是在实际应用中,销量预测的成功在很大程度上与图书供应链的反应程度、出版机构的数字化水平、大数据赋能等密切相关。展望未来,随着更多的出版机构通过搭建大数据平台将资源数据、运营数据、用户行为数据等进行有效整合和共享,图书供应链将朝着数字化、全渠道、全链路的方向发展,图书销量预测方式将融合算法、数据、场景三要素,推动图书行业数据智能的迭代发展,为供需精准对接提供科学依据。

参考文献

向上滑动阅览

[1]杨金花. 图书销量预测偏差与校正[J]. 出版发行研究,2020(4):46-49.

[2]赵爱清. 供给侧结构性改革与大数据应用[J]. 中国高校社会科学,2017(5):69-77.

[3]赵筱媛,浦墨,王娟娟,等. 基于政策文本内容分析的政策发展趋势预测研究[J]. 情报学报,2014,33(9):916-925.

[4]LAWRENCE M,GOODWIN P,O'CONNOR M,et al. Judgmental forecasting:A review of progress over the last 25 years[J]. International Journal of Forecasting,2006,22:493-518.

[5]SEIFERT M,SIEMSEN E ,HADIDA A L,et al. Effective judgmental forecasting in the context of fashion products[J]. Journal of Operations Management,2015,36(5):33-45.

[6]杜秀芳. 判断预测的心理偏差及产生原因[J]. 心理科学,2013,36(4):998-1003.

[7]刘军,张冠勇. 预测模型在图书需求预测中的应用[J]. 出版科学,2009,17(6):50-53.

[8]韩钦. 时间序列分析模型在图书选题上的应用研究——以图书热度为预测研究对象[J]. 出版广角,2020(3):28-31.

[9]曾文,徐红姣,车尧,等. 基于图书出版行业大数据的选题决策分析模型研究[J]. 情报学报,2018,37(8):813-821.

[10]徐健. 基于网络用户情感分析的预测方法研究[J]. 中国图书馆学报,2013,39(3):96-107.

[11]GRUHL D,GUHA R,KUMAR R. The predictive power of online chatter[C]//Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005:78-87.

[12]孟园,王洪伟,王伟. 网络口碑对产品销量的影响:基于细粒度的情感分析方法[J]. 管理评论,2017,29(1):144-154.

[13]CHEVALIER J A,MAYZLIN D. The effect of word of mouth on sales:Online book reviews [J]. Journal of marketing research,2006,43(3):345-354.

[14]李雪妮,张绍武,杨亮,等. ARES:用于预测的情感感知自回归模型[J]. 计算机研究与发展,2013,50(8):1722-1727.

[15]ZHANG C,TIAN Y X,FAN Z P,et al. Product sales forecasting using macroeconomic indicators and online reviews:a method combining prospect theory and sentiment analysis[J]. Soft Computing,2019:1-15.

[16]巢乃鹏. 人工智能与计算传播学[J]. 人民论坛·学术前沿,2019(20):20-31.

[17]BASS F M. A new product growth model for consumer durables[J]. Management Science,1969,15(1):215-227.

[18]DELLAROCAS C,AWAD N F,ZHANG X. Exploring the value of online product reviews in forecasting sales:the case of motion pictures[J]. Journal of Interactive Marketing,2007,21(4):23-45.

[19]王芳,叶作亮,卢美丽. 基于在线口碑的消费预测模型与实证研究[J]. 消费经济,2017,33(2):38-44.

[20]FAN Z P,CHE Y J,CHEN Z Y. Product sales forecasting using online reviews and historical sales data:a method combining the Bass model and sentiment analysis[J]. Journal of Business Research,2017(74):90-100.

[21]CHONG A Y L,LI B,NGAI E W T,et al. Predicting online product sales via online reviews,sentiments,and promotion strategies:a big data architecture and neural network approach[J]. International Journal of Operations & Production Management,2015,36(4):358-383.

[22]MAITY S K,PANIGRAHI A,MUKHERJEE A. Analyzing social book reading behavior on goodreads and how it predicts Amazon best sellers[EB/OL]. (2018-09-19)[2022-05-30]. http://arxiv.org/abs/1809.07354.

[23]王伟军,黄英辉,李颖,等. 基于微博公众情感状态的新产品市场预测研究[J]. 情报学报,2017,36(5):511-522.

[24]龚诗阳,刘霞,赵平. 线上消费者评论如何影响产品销量?——基于在线图书评论的实证研究[J]. 中国软科学,2013(6):171-183.

[25]YUCESOY B,WANG X,HUANG J,et al. Success in books:a big data approach to bestsellers[J]. Epj Data Science,2018,7(1) :1-25.

[26]VERBOORD M. Cultural products go online:comparing the Internet and print media on distributions of gender,genre and commercial success[J]. Communications,2011,36(4):441-462.

[27]SORENSEN A T. Bestseller lists and product variety[J]. Journal of Industrial Economics,2007,55(4):715-738.

[28]黄巧莉. 传播视域中的图书排行榜[J]. 编辑之友,2019(6):33-36.

[29]李焰明,张曼. 法国文艺评价机制初探——文学奖项带来的春天[J]. 济南大学学报(社会科学版),2019,29(5):88-92.

[30]CARMI E,OESTREICHER-SINGER G,SUNDARARAJAN A. Is oprah contagious? Identifying demand spillovers in product networks[J]. SSRN Electronic Journal,2010.

[31]钟蕾,王涵. 文化类电视节目对图书销量的影响力测评——以《朗读者》为例[J]. 出版发行研究,2018(7):43-46.

[32]CLEMENT M,PROPPE D,ROTT A. Do critics make bestsellers? Opinion leaders and the success of books[J]. Journal of Media Economics,2007,20(2):77-105.

[33]杨华,孙宝凤,林天雪,等. 网络口碑对消费者图书购买意愿的影响效应研究[J]. 图书情报工作,2018,62(2):117-126.

[34]THELWALL M,KOUSHA K. Can Amazon. com reviews help to assess the wider impacts of books?[J]. Journal of the American Society for Information Science and Technology,2016,67(3):566-581.

[35]龚诗阳,刘霞,刘洋,等. 网络口碑决定产品命运吗——对线上图书评论的实证分析[J]. 南开管理评论,2012,15(4):118-128.

[36]ROCKLAGE M D,RUCKER D D,NORDGREN L F. Mass-scale emotionality reveals human behaviour and marketplace success[J]. Nature Human Behaviour,2021:1-7.

Title : Research on Theoretical Framework of Data-Driven Book Sales Forecasting

Author : REN Juan 

Author Affiliation : Shanghai Publishing and Printing College; Shanghai Research Institute of Publishing and Media

Abstract :  Online book reviews are the key indices of book sales forecasting and the mechanism of word-of-mouth communication. This paper summarizes the research on book sales forecasting from four theoretical perspectives and analyzes the main factors for book sales from two aspects of book characteristics and online word-of-mouth communication. By taking online book reviews as an example, a theoretical framework of data-driven book sales forecasting is constructed, in which online review sentiment analysis is integrated. The core content modules and the key problem solutions are analyzed. The theoretical framework of data-driven book sales forecasting can provide the in-depth analysis for the book industry research and marketing management and provide a theoretical basis for the operation and management of publishing organizations.

Keywords : data-driven;book sales forecasting;online book review;sentiment analysis

编辑:许彤彤

审核:靳琼 熊喆萍

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
京东商城大数据创新下的智慧零售 | 小工蚁
python基于评论情感分析和回归、arima销量预测的购物网站选品
用Excel做销售、成本预测分析,这些方法必须会
我国精酿啤酒行业驱动因素分析:消费升级+社交需求促进精酿啤酒规模增长
推荐系统算法(2)<InfoQ系列翻译文章,2016>
【智库发布】大数据与侦查模式变革研究(下)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服