打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Plos One:通过社交媒体测量国民幸福感真的准确吗? | 唧唧堂论文解析

picture from Internet

解析文章首发于唧唧堂网站www.jijitang.com

解析作者|唧唧堂MIS信息系统研究小组 polly审校编辑|刘祎迪,Runsong



本文是针对论文《大数据时代下通过Twitter测量的国民幸福真的准确吗?——社会媒体分析方法论上的局限性》 (Putting the methodological brakes on claims to measure national happiness through Twitter: Methodological limitations in social media analytics)的解析,该论文于2017年9月发表在《公共科学图书馆》(Plos One)。研究作者是Jensen, E. A.


研究背景


伴随着社交媒体在全球的迅速发展,利用容易获取的“大数据”等现有资源发展社会科学知识的方法受到越来越多人的关注。基于社交媒体的研究使得大样本量数据的分析成为可能,关于大数据的研究吸引了来自科学期刊和新闻媒体的共同关注。


然而在大数据分析热潮下,那些长久建立起来的社会研究准则经常被忽视,但并没有研究对“由于忽视准则而带来的相关后果”进行过准确的说明。本篇文章辩证的评价了Mitchell等人于2013年发表的一项名为《地域幸福感:利用社交网络推特的推文内容、个人信息简介、所在地等数据综合分析地域幸福感》(The Geography of Happiness: Connecting Twitter Sentiment and Expression, Demographics, and Objective Characteristics of Place)的研究,试图说明方法论上的局限性对大数据研究的负性影响,主要涉及以下几个方面:

①由推论概括性引发的过度解释问题;

②关键概念操作性定义的局限;

③实际抽样偏差;

④解释二手数据形式内在缺陷的失败。


大数据分析是一种利用类似“推特”这样的网络平台上的社交媒体数据进行相关社会问题调查的方法,以往对于“人口的调查”通常采用较为传统的社会调查或其它方式,现如今我们可以利用大数据分析方法对这些问题进行分析。


居住在城市与幸福感之间存在什么关系?Mitchell等人研究的主要目的便是探索地域与社会幸福水平之间的关系以及对其的潜在影响。这篇研究从推特用户社交媒体上表现出来的情绪状态及行为态度数据推断其线下社会真实行为,使得网络世界与现实生活相连接。但是这两个世界并不是协同扩展的,为了验证或校正使用推特数据推论线下真实行为的准确性,需要有证据证明Twitter用户和语音模式的真实性。我们不能简单地假定用户线上网络世界的情感与行为就是用户线下真实世界行为与情感的虚拟化表现。线上社交生活与线下真实社交是有所差别的。网络社区衍生出的风格迥异的文化模式有着与个体参加真实社区不同的特征表现。


虽然基于推特或脸书等社交网络所获得的用户数据似乎是可信的,精确的分析框架会在一定程度上限制将不可控错误引入分析中的风险,但目前鲜有关于建立社交媒体内容与真实社会生活之间关系的验证性研究。目前针对社交媒体内容与线下真实情感状态、态度之间的关系是否对等的假设依旧存疑。作者将从操作定义的表面效度、代表性样本的重要性、大数据分析即二次分析三个方面出发,针对Mitchell文章中存在的几点局限性进行详细论证,以期对未来心理学工作者在利用大数据分析方法进行研究时提供可参考借鉴之处。


一、操作定义的表面效度


在Mitchell的研究中,他让被试对推特用户所发布的推文中有关情感或态度的词在悲伤—高兴维度上进行九点评分,以此来分析不同地区人们的幸福指数。事实上在此过程中研究者并未考虑推文内容出现的情感或态度类词语的背景环境因素。单个词语所表达的情感正负性可能与整句话所要传达的情感相矛盾,所以单纯分析词汇情感效价而忽视对话环境或背景在某种程度上会降低研究的效度。


二、代表性样本的重要性


Mitchell的文章中分析了一千万名推特用户,正如我们所知,一个拥有大样本量的研究并不代表这是一个好的或是精确的研究。为了使研究结论普适性更广,研究者必须确保抽取的样本在所要研究的对象中具有绝对的代表性。Mitchell的文章中仅仅基于地理标签分析了2011年来自美国部分推特用户的数据信息,并没有证据充分说明抽取的这一部分样本可以代表全部推特用户。事实上最近研究表明:不同地区的推特用户与所有推特用户之间存在明显的差异,所以基于地理标签选取的样本相对总体样本来说存在着稳定的系统误差。


数据获得的难易程度会影响取样代表性,即当很容易获取某些数据时,即使这些数据存在局限性,研究者会倾向于使用这些数据。此外Mitchell认为从某一地区选取的推特用户数据堪比当地所有人,事实上当地推特用户数据的相关人口学信息特点在很多方面不同于当地人们,例如推特用户中男女比例差异明显,男性用户大约占总体的71.8%,所以由此得出的研究结论在推及总体样本时势必存在误差。


Mitchell文章中存在的另一个局限性在于所提出的“一般幸福”的概念。由于取样偏差,所以基于有偏样本数据下得到的“一般幸福”分数实则存疑。如若想要获取准确的“一般幸福”分数,必须遵循以下几点要求:


①推特用户的数据信息可以准确的反应线下个体的幸福感。


②自动情感分析工具可以精确区分推特用户数据信息中幸福和悲伤部分


③所抽取的推特用户可以作为当地用户的代表性样本。


④“一般幸福”的概念原则上必须是有意义的。事实上Mitchell的文章并没有遵循以上几点要求,所以所得结论正确性还有待考究。


picture from internet


三、大数据分析是二次分析


长久以来那些影响本文中所讨论的大数据分析类型的挑战同时也影响着那些试图利用现有数据发展新知识的社会科学家们。对于方法论文献中的二次分析,我们需要充分理解影响这类研究的局限性。


相比其他人,某些个体会提供更多的数据。例如对于那些经常发推文的推特用户较之其他用户会提供更多的数据,这也意味着这些用户的数据占所收集数据的大部分。


此外利用大数据分析方法很可能会漏掉某些样本数据,例如对于那些从不使用推特的人很可能就不在研究分析的范围内。


大数据分析方法下很难准确找到数据的最初源头,这一局限性使得研究结论的概括性受到威胁。例如一位居住在马萨诸塞州的推特用户在宾夕法尼亚州发布了一条推文,在分析数据时可能将这位用户的推文内容幸福指数算在宾夕法尼亚州,但他的人口统计学数据信息将在马萨诸塞州内进行分析,以这样的方式计算成千上万的用户的数据就会产生一系列的不可控误差。


大数据分析方法下得出的研究结论可能华而不实,例如Mitchell的研究得出用户推文内容是反映线下个体幸福感的有效指标,但此假设并未得到有效的验证,所以个体真实情绪与其社交媒体上发布的内容之间存有差距。


数据分析时我们会尽可能最大化利用现有数据,但无法做到将所有相关变量都考虑在内,所以在对变量之间关系做因果解释时需谨慎。


统计分析的基本原则之一就是重复,相关并不代表因果,我们必须避免那种大样本量可以克服各种偏差和混淆变量的天真想法。本文虽然提出了大数据分析方法存在的一些局限性,但并不意味我们要取消所有有关社交媒体的研究。相反大数据分析方法应该向其他社会调查方法一样对推论和结论概括性设置一个合理的偏差校正值。如果将研究结果推论到特定的社交媒体用户圈内,而不是一般大众,那么研究的信效度是否也会更有保障。此外将社交媒体上所获取的用户数据结果推论到线下广大人群需要说明该数据存在的取样偏差类型。


研究结论


大数据时代的到来对心理学研究者来说既是机遇同时也是挑战,我们在运用大数据分析个体心理现象及其规律的同时,也要注意不能脱离方法论的指导。研究者并不能从推特用户的推文内容直接推断用户在真实生活场景下的会话模式,网络社交媒体很可能存在一套其自身特有的会话策略或沟通方式。事实上对于那些影响线下真实社交场景的因素诸如:权利、声音、符号表征、身份、领导力、争夺稀缺资源及可视化表征等同样会对网络产生强有力的影响。


当前大数据分析方法面临的一个严峻的挑战就是研究者很难说清楚某一现象的出现是受哪些因素的影响。研究者在运用大数据分析方法时不仅要理解并公开声明此数据集的局限性所在,同时也要清醒地意识到此数据集在解决问题中的不足之处以及研究者如何对所得结论给出一个合适、恰当的解释。


参考文献:

Jensen, E. A. (2017). Putting the methodological brakes on claims to measure national happiness through Twitter: Methodological limitations in social media analytics. PloS one, 12(9), e0180080.



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
那些年,曾经被我们误读的大数据
为什么统计学是科研工作者的必备技能?
推荐系统之矩阵分解家族
《大数据时代》读书报告
关于选择哪个杂志进行投稿的几点思考
PLoS ONE:好消息!多吃蔬菜水果可以让你更幸福!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服