情感分析在社会化媒体效果研究中的应用 ——基于分类序列规则的微博文本情绪分析

本文原载于《国际新闻界》2017年第4期

本文作者：

王玮，湖南大学新闻传播与影视艺术学院讲师，北京大学新媒体研究院博士生。

温世阳，北京大学计算机科学技术研究所硕士研究生。

关于受众反馈的研究一直是传播学效果研究领域中的热点问题之一。在社会化媒体平台上，目前针对传播过程中受众反馈的研究往往难以涉及到对参与者情感与情绪的深入探讨。究其原因，首先是受到数据样本本身的局限；其次则是缺乏必要的情感或情绪分析技术手段。

本文试图在传播学研究的框架之内，探讨信息科学中情感分析方法的理论及其实践意义。并且，以新浪微博为例，重点引入了一种新的社会化媒体情绪分类研究方法——基于分类序列规则的微博文本情绪分类方法，来对社会化媒体平台上的网络舆情及群体情绪分析做出更加精细化的探讨。

一

概念及应用

情感分析(sentiment analysis)又称意见挖掘(opinion mining)，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，包括情感信息抽取、情感信息分类、情感信息的检索与归纳。

而情绪分析(emotion analysis)，作为一个常与情感分析(sentiment analysis) 混淆和误用的概念，学界对此目前并没有一个成熟的定义。但是和情感分析相比，情绪分析的结论并不只局限于积极、消极或中性的简单划分，而是致力于在正负极两个笼统的情感范畴内，继续识别出如惊讶、恐惧、悲伤、愤怒、喜悦等更加具体的情绪类别。换言之，同一个情感类型可能会包含或对应着不同的情绪分类，而针对不同的情绪类别，作为传播主体而言，其所要采取的应对举措可能也会存在较大差异。

二

文献综述

早在2000年，情感分析已经成为自然语言处理领域中最为活跃的研究范畴之一。之前的研究主要集中在评论(Liu & Seneff，2009)、论坛讨论(Shi et al.， 2009)和博客(Chesley， Vincent， Xu & Srihari，2006)上。

随着社交媒体的发展，已有大量研究开始着手于Twitter和中文微博的情感分析问题。典型的研究如基于Twitter中的电影评论建立的对电影票房的预测模型(Asur & Huberman， 2010)，以及政务部门通过分析社会化媒体平台上的网络舆情情感趋势作为政治决策依据等。

目前，国内将情感分析方法应用于社交媒体传播的相关研究仍然主要集中在计算机科学领域。

在本文中，我们除了关注一般意义上的情感分析，更将重点放在情感分析中的情绪分析之上，并尝试引入一种利用机器学习方法中的分类序列规则来进行文档级情绪分类的方法。分类序列规则(Liu， 2007)通常被用作划分文本文档中相似的句子 (Jindal & Liu， 2006)以及观点特征提取 (Hu & Liu， 2006)。

三

基于分类序列规则的微博文本情绪分类方法

在本文中，我们将以新浪微博为例，重点介绍一种专注于中文微博文本的情绪分类方法。该方法旨在将每一条中文微博文本划分到多种情绪类别之一(即“生气”、“厌恶”、“恐惧”、“高兴”、“喜欢”、“悲伤”、“惊讶”和“无情绪”)。

方法实施的重点是文档级情感分析任务，这比句子级情感分析更具挑战性。已有的基于词典或机器学习的方法由于总是把一条微博文本看作是一个词包或者一个句子包，并没有考虑到微博中的文本顺序和话语结构，因此通常难以得出满意的结论。

为了更好地利用文本语序和话语结构信息来对微博文本进行情绪分类。这里提出利用分类序列规则来为有监督的情绪分类提取新的有效特征。首先使用传统的基于词典和基于机器学习的方法，为一段微博文本中的每个句子获得两个潜在的情绪。

（一）基本方法

本节将介绍使用基本的基于词典的方法和基于机器学期的方法来进行文档级和句子级的情绪分类。

1.基于词典的方法

基于词典的方法非常依赖于情绪词典的质量。在本次实验中，我们从三方面资源入手建构了一个中文情绪词典：1)在本文方法中，我们采用了大连理工大学信息检索研究室的情绪词典，其中包含7种情绪类别，在实验中去掉了一些对语料库不适用的情绪词汇；2)收集了一些对情绪分类有用的常见俚语；3)从微博网页中搜集到一些表情符号来扩充情绪词典。表2显示了在本文情绪词典中每个情绪类别下的单词总数。

本文使用中文分词工具- ICTCLAS来对中文微博文本进行分词。基于已经构建好的情绪词典，统计每个情绪类别的词汇在一个文本中出现的数量，然后根据文本中出现情绪类别词最多的那一类来决定该文本的情绪标签。如果文本中不包含情绪词汇，则该文本被标注为“无情绪”。上述过程同样可以应用在一个句子上得到一个句子级的情绪标签。

2.基于SVM的方法由于在之前的研究中，SVM已经充分显示出了其在情感分类方面的优越性，因此本文采用了SVM作为基于学习方法的学习模型。本次研究主要使用了台湾大学的 LIBSVM工具包来进行多重情绪分类。对于文档级情绪分类和句子级情绪分类，我们在实验中都采用了以下三种基于文本的特征：词汇特征，标点符号特征，情绪词典特征。

(二)本文使用的方法

本文主要利用句子级的分类序列规则来完成对微博文本的情感或情绪分类的任务:1)分别用基于词典和基于SVM的方法获得一条微博文本中每个句子的两个情绪标签;2)将微博文本转化为包含句子级情感标签和连词的序列;3)从这些序列中挖掘分类序列规则(CSR);4)从CSR中提取出特征，然后用它们对整个文本进行基于SVM的情绪分类。在此方法中，分类序列规则体现出了句子顺序和句子间话语关系的信息，而这些信息对于情绪分类是一种潜藏的、有用的模式。

1.从微博文本中挖掘分类序列规则在这一小节中，我们将每篇微博文本转化为一个序列，包括训练数据集和测试数据集。

构建微博文本中的序列数据库的具体步骤如下:

1)对于测试集微博中的每个句子，同时利用基于词典和基于SVM的方法来判断句子的情绪。如果2种方法得到的结果相同，句子就得到一个情绪标签：否则的话句子就得到2个情绪标签。对于训练集微博中的每个句子，直接使用人工标注的句子情绪标签。这里应该注意在训练集中，人工标注的每个句子可能会有一个最初的情绪和第二情绪，本文中使用句子的最初情绪作为句子的情绪标签。

2)结合每个句子的情绪标签和句首的连词来将一篇微博文本转化为一个序列。

3)在训练集中，每条微博的情绪标签和一个相关序列一起作为一个分类。

本文还采用多重最小支持度的策略(Jindal and Liu 2006)，在这个策略中，一个规则的最小支持度取决于规则中的训练集项的最小频率和参数r的乘积。

2.微博文本的情感分类在训练集中挖掘出一些分类序列规则之后，我们用每个规则中的序列模式X作为一个特征。如果一条微博对应的模式(序列)包含X，那么其相应的文本特征值设置为1，反之则设置为0。此外，我们还会用到词汇、标点符号和情绪词典特征。最后用台湾大学的LIBSVM工具包来进行模型训练和测试。

四

情绪分类方法在传播学中的应用举例

基于分类序列规则的微博文本情绪分类方法可被应用于微博平台上的任何热点事件舆情分析之中。以2016年6月24日的“英国脱欧”事件为例1，如果我们按照前文所示方法，将网民情绪划分为“生气”、“厌恶”、“恐惧”、“高兴”、“喜欢”、“悲伤”、“惊讶”和“无情绪”等8种主要类别，通过数据挖掘和分析可以看到2，在新浪微博平台上，该话题在6月之前几乎没有任何关注度，但是在6月公投事件之后话题讨论声量开始出现显著上升(如图1)。

经过算法分析之后，去除大部分“无情绪”微博后可以看出，在公投结束之后，新浪微博平台上网友用于表达情绪的微博中最多体现的是高兴(happiness)，其次是厌恶(disgust)，在事件持续发酵之后，从7月上旬的情况来看，呈现数量最多的是生气(anger)，其次是厌恶(disgust)和高兴(happiness)。(如图2)

根据外交政策网站6月30日报道，一个脱离了欧盟的英国对于全球经济来说是个不利因素，不过对于中国民众来说，英国脱欧给他们个人带来的影响则是有限的，在中国社交媒体上，似乎没有几个人关心今后数年一个愈加碎片化的西方或可给中国带来的重大战略利益。但是当西方媒体开始报道投了脱欧票的英国选民过后又反悔了的时候，中国网民的态度也开始出现了变化。从图3和图4可以看出，在去除“无情绪”的七种情绪之中:变化幅度最大的是生气(anger)和高兴(happiness)，几乎没有什么变化的是悲伤(sadness)。究其原因，主要可能是因为经由媒体报道呈现出的英国民众对于投票的随意态度以及事后反悔的行为，带来了中国网友的负面情绪增长。

由图5可见，中国网友对“英国脱欧”事件的关注主要集中在经济形势、货币以及移民政策等相关话题上。

由此可以看出，虽然在整个事件中，网民整体情绪并未发生颠覆性变化，但是其中细微的情绪差别依然值得关注。尤其是当一些突发时间发生之后，相关部门在进行信息公开、舆论引导以及公众沟通的时候，更是需要针对不同类型的网民情绪及其所占比重加以留意区分，以制定出更有针对性的传播策略。

五

结论

信息化时代，利用计算机技术以及社会化媒体平台上即时产生的海量数据来精准探知网民的情感态度及网络舆情倾向，从而制定有针对性的传播策略，对于任何社会组织而言都非常重要。综上所述，在针对以新浪微博为代表的社会化媒体平台舆情研究与意见挖掘中，应用本文研究方法至少有两方面的优势:

第一，情绪划分更加精确。应用本文方法进行社会化媒体舆情研究，能够使其结论不再仅仅局限于积极、消极或中性的简单情感态度类别，而是能够在正负极两个笼统的情感范畴内，继续识别出如惊讶、恐惧、悲伤、愤怒等更加具体、细微的更多情绪类别，从而能够对网络舆情及群体情绪分析做出更加精细化的探讨。

第二，方法更加严谨。本文方法不仅考虑到了微博文本中的语句顺序以及句子之间的话语关系，而且使用了两种不同的方法来获取每个句子的情绪标签，同时在方法中充分应用到了这两个情绪标签，因此能够最大程度减少由单一方法带来的错误。

近年来，传播学已经越来越成为一门被广泛承认和运用的交叉学科。在后续研究中，我们也将尝试引入不同学科的研究视角和方法，来继续推动完善社会化媒体的传播效果研究。

编辑：佳佳

本文系简写版，部分内容及参考文献从略。原文刊载于《国际新闻界》2017年第4期。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。