打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
节译:从政治领导人社交媒体帖子中生成地理空间情报的新方法
喜欢就关注我吧,订阅更多最新消息

作者:法希姆·苏菲(澳大利亚维多利亚州3000,墨尔本,独立研究员)、穆斯莱·阿尔苏拉米(沙特阿拉伯麦加24382,乌姆古拉大学信息系统系)

收稿日期:2022-02-09  修订日期:2022-02-23

录用日期:2022-02-25  出版日期:2022-02-28

(本文属于Big Spatial Data Management特刊)

摘要:政治领导人、国家元首、政党及其支持者利用推特等社交媒体平台从战略上影响公众舆论。领导人可以在他们的社交媒体账户中发布关于一个地点、一个州、一个国家甚至一个地区的信息,这些信息可以立即被数百万追随者浏览和回复。政治领袖发布社交媒体帖子的效果可以通过提取、分析并为社会科学家和研究人员生成实时地理空间情报来自动测评。本文提出了一种基于人工智能(AI)的语言检测、翻译、情感分析和命名实体识别(NER)自动处理政治领导人实时社交媒体消息的新方法。该方法在ESRI ArcGIS地图和Microsoft Bing地图上自动生成地理空间和位置情报。该系统于2020年1月1日至2022年2月6日部署,用于分析150万条推文。在这25个月的时间里,使用271885个推特句柄的数据,成功识别并绘制了95K个位置。该系统的总体准确率、召回率和分数为90%,准确率为97%,是直接从具有人工智能的政治领导人的实时推特订阅源生成地理空间情报的最准确系统。

关键字:政治推文的情绪分析;政治推文上的命名实体识别;地理空间情报;分析政治领导人的推文;社交媒体的大数据处理

1. 引言

从方法上讲,通过利用从社交媒体账户中提取的大数据[8],然后使用我们早期研究[9,10,11,12,13,14,15,16,17,18]中报告的各种基于人工智能(AI)的技术,可以对Twitter用户进行行为分析。正如[4,5,6,7,19,20]所观察到的,政治学领域的现有研究要么使用地理标记推文,要么完全跳过位置提取算法的使用。例如,在[19]中,地理标记的推文(推文中已经存在位置信息)仅用于分析。另一方面,在[7]中,位置信息从未被利用,尽管[7]中的研究涉及政治领域。现有的政治科学语料库从未使用复杂的位置提取机制,如命名实体识别(NER),当推特提要中没有地理标记的位置字段时,该机制可以生成位置信息。

在本文中,提出了一种从政治领导人的Twitter账号中提取社交媒体帖子的方法,用于随后使用情绪检测、NER和地理空间情报算法进行分析。从2020年1月1日到2022年2月6日,该地区政治领导人、国家元首、外交官、外国记者、政党支持者以及政治新闻机构的150多万条推文都使用了这种方法。使用NER从这些推文中提取了95000多个独特的位置,并在地理地图(ESRI ArcGIS地图和Microsoft Bing地图)上叠加了相应的情感分析。这个过程创建了数百张地图,其中数千个位置展示了领导人对特定地区的积极、消极或中立看法。此外,还生成了热图,并使用Getis Ord Gi*进行了热点分析。最后,我们将最终的应用程序(即建议的新软件工具)部署在多个平台上,以及一系列涵盖Windows、iOS和Android应用程序的设备上。通过使用这项研究的结果,政治学家将获得比以往政治学研究结果更高水平的地理情报[4,5,6,7,19,20]。

据我们所知,现有文献中从未报道过使用基于人工智能(AI)的NER、情绪分析和自然语言处理(NLP)提取政治领导人以位置为中心的观点。此外,以下是本研究报告的一些选定结果:

◾这项研究报告了从2020年1月1日到2022年2月6日监控政治推文的最长时间间隔;

◾与[4,5,6,7,17,21,22]中的现有研究相比,这项研究代表了最大的推文集合,共有271885名政治领导人、外交官、政府官员和政党支持者;

◾这项研究收集了最多的多语言推文,涵盖63种不同的语言。在这些不同的语言中,578706条推文是阿拉伯语,320221条推文是英语,71983条推文是法语,65430条推文是波斯语/波斯语,29103条推文是西班牙语,22219条推文是德语,等等;

◾这项研究记录了最大的位置集合,使用NER自动提取了超过95K个位置,并在ESRI ArcGIS地图和Microsoft Bing地图上绘制;

◾最重要的是,拟议的系统显示了97%的总体准确率,使其成为处理政治领导人推文的最准确的地理空间系统[4,5,6,17,21,22]。

2. 背景

在过去几年中,189个国家的政府和领导人高效地使用了社交媒体平台,除老挝、朝鲜、圣多美以及普林西比和土库曼斯坦外,这些国家占联合国会员国的98%以上[2]。Twitter作为政客们最著名的社交媒体平台,已经被用于竞选活动[21]。由于政党、候选人和支持者使用Twitter有效地传播政治议程、目标和愿景,数据科学家可以利用公开的Twitter提要,使用复杂的技术预测选举结果,如[5]所示。[5]中使用了情绪分析、支持向量机(SVM)等分类算法,以及社交网络分析(即,谁在积极关注主要选举候选人的Twitter手柄并对其做出反应)来预测美国选举。此外,Twitter用户支持敏感政治议程和问题(即,谁支持和谁反对特定政治议程)的位置已在[4]中展示。在[4]中,通过情绪极性分析,在Twitter平台上监控敏感的政治议程,如印度的《公民身份修正法》(CAA),以确定支持或反对观点的位置。在最近的研究中,我们使用情绪分析和NER以及创新算法来识别社会政治反vax和亲vax团体的活动和位置[17]。以前的研究,如参考文献。[4,5,17,21]使用推特的位置字段[4]从推特上收集基于位置的政治消息。利用Twitter的位置字段的缺点是,用户倾向于四处移动,推文会保留Twitter用户的无效地址。此外,如果Twitter用户关闭了位置服务,使用Twitter提要的位置字段进行分析可能会导致不准确的结果。尽管如此,面向位置的推特提要还是很重要的,因为[23]中的研究表明,将位置特征与情绪分析过程相结合可以增强推特情绪分类。

值得一提的是,本节中介绍的现有研究[4,5,6,17,21,22]都没有在一系列地理空间威胁地图上提取政治领导人以位置为中心的观点。

从伦理角度来看,已经进行了几项研究,探讨社交媒体用户对研究人员或政治科学家使用他们的数据的感受[24,25]。根据这些研究,Twitter等面向公众的开放式社交平台的道德问题可以忽略不计,因为这些平台的用户已经意识到,他们的所有帖子都可以被更广泛的公众、组织或实体公开查看。然而,使用Facebook上的数据可能会引起更高程度的道德和隐私担忧,因为有了多级隐私功能,Facebook用户认为他们的数据只能通过封闭的社交网络访问。另一方面,[25]中的一项研究得出结论,尽管Twitter用户对研究人员或科学家使用他们的数据没有任何问题,但他们肯定不希望政府和情报机构监视他们的社交媒体内容。因此,在这项研究中,我们使用政治领导人的公开Twitter订阅源来生成基于人工智能的地理空间情报,以造福于政治科学家和社会科学家。

3. 材料和方法

基于Twitter的外交研究,称为Twiplomacy 2020,揭示了数千个政治领导人的Twitter句柄[2]。通过使用其中几个句柄,我们的系统使用应用程序编程接口检索了2020年1月1日至2022年2月6日期间的所有政治推文。我们的系统是通过语言检测以及Microsoft认知服务的翻译应用程序编程接口(API)实现的,该服务支持110多种不同的语言[26,27]。使用这些自动化的API,我们的系统将所有非英语推文(即近143万条)翻译成英语。随后,对所有150万条推文进行了情绪分析。情绪分析过程返回特定推文的情绪信心,包括积极情绪、消极情绪、中性情绪或混合情绪。最后,对所有tweet执行NER。我们的系统自动提取了24种不同类型的实体,并从中自动聚集了5种具有聚合情感的面向位置的实体(即城市、大陆、国家地区、语言和国家)。整个过程在算法1中被描述为伪代码。

本文提出的系统可以通过Microsoft Power Platform支持的API与Facebook、Instagram和LinkedIn等任何其他社交媒体平台协同工作,如图1所示。此外,该系统还可以使用Microsoft Power Platform支持的网页抓取技术(即使用M语言)从网站中提取动态内容[11,12]。如图1所示,MS Power Automation[28]和MS Power Query用于获取推文、数据清理和转换、语言检测和语言翻译[26,27]、情感分析,最后是NER。这些经过预处理的消息随后在Azure云托管的Microsoft SQL Server中存储和管理。SQL查询用于数据探索、进一步分析,以及为仪表盘提供过滤查询。最后,Microsoft Power BI被用于数据可视化、分析,并通过人工智能和NLP生成见解[9,10,11,12,17]。Microsoft Power BI中使用的数据分析表达式(DAX)编程语言用于从MS Azure SQL Server获取筛选的行,如代码1所示。在MS Power BI中,DAX还可以用于从基于云的Microsoft Azure认知服务直接调用NER API,如代码2所示。值得一提的是,在本研究中,情绪分析和NER都是通过Microsoft认知服务文本分析API进行的[29]。

图 1.从政治领导人的职位获取社交媒体和地理空间情报处理的高级架构图

4. 结果

在这25个月期间(即2020年1月1日至2022年2月6日),共捕获了150多万条政治推文。由于我们的政治利益在中东地区,我们捕获了地区总统、外交部长、国防部长、官方部长账户、政治领导人和新闻机构的推文。总共有271885个不同的Twitter句柄被用来检索63种不同语言的政治推文。在这些不同语言的推文中,578706条推文是阿拉伯语,320221条推文是英语,71983条推文是法语,65430条推文是波斯语/波斯语,29103条推文是西班牙语,22219条推文是德语,等等。阿拉伯语、英语、法语、波斯语、西班牙语、德语和土耳其语是地区推文最多的七种语言。最后,在微软认知服务的语言检测和翻译过程之后,对所有推文进行了情绪分析和NER[26,27,29]。Microsoft Power BI从领导者的推文中提取了所有位置实体(即城市、大陆、国家地区、语言和州),以展示ESRI ArcGIS地图和Microsoft Bing地图中的地理空间情报。图2、图3、图4、图5、图6、图7、图8、图9和图10显示了从ESRI ArcGIS地图中选定政治领导人的Twitter手柄中提取的地理空间情报。表1显示了这八位政治领导人的详细信息,包括埃及的阿卜杜勒·法塔赫·埃尔西西、伊拉克的巴勒姆·萨利赫、伊拉克的福阿德·侯赛因、巴林政府的官方推文账户、巴勒斯坦的穆罕默德·卡里姆、伊拉克的穆斯塔法·卡迪米、以色列的鲁文·里夫林和沙特阿拉伯的费萨尔·本·法尔汉。

图 2.从埃及总统阿卜杜法塔·埃尔西西(Abdefattah Elsisi)的推文中,通过情绪分析和NER提取地理空间情报信息

图 3.通过情绪分析和NER从巴勒姆·萨利赫(伊拉克总统)的推文中提取地理空间情报信息

图 4.通过情绪分析和NER从福阿德·侯赛因(伊拉克外交部长)的推文中提取地理空间情报信息

图 5.通过情绪分析和NER从福阿德·侯赛因(伊拉克外交部长)的推文中提取地理空间情报信息

图 6.从穆罕默德·卡里姆(巴勒斯坦内容创建者)的推文中,通过情绪分析和NER提取地理空间情报信息

图 7.通过情绪分析和NER从穆斯塔法·卡迪米(伊拉克总统)的推文中提取地理空间情报信息

图 8.通过情绪分析和NER从穆斯塔法·卡迪米(伊拉克总统)的推文中提取地理空间情报信息

图 9.通过情绪分析和NER从以色列总统鲁文·里夫林(Reuven Rivlin)的推文中提取地理空间情报信息

图 10.从费萨尔·本·法韩(沙特阿拉伯外交部长)的推文中,通过情绪分析和NER提取地理空间情报信息

表2显示了为生成地理空间信息而处理的推文的统计细节,如图2、图3、图4、图5、图6、图7、图8、图9和图10所示。如表2所示,阿贝尔法塔·伊利斯(伊拉克总统)的推文使用了他推文中最积极的语气(平均积极情绪信心为0.62)。另一方面,以色列的鲁文·里夫林(Reuven Rivlin)和伊拉克的巴拉姆·萨利赫(Bahram Salih)的消极情绪自信平均值最高,分别为0.46和0.42。值得一提的是,这种比较仅限于表2所示选定时间间隔内的七个选定案例(即,不包括拟议系统在2020年1月1日至2022年2月6日期间分析的271885名推特用户总数)。表2还显示了使用系统的NER流程从领导者的推文中提取的位置数(以及唯一位置)。从表2中可以明显看出,不同的政治领导人代表了不同的社交媒体使用模式,在帖子频率、帖子情绪和其他变量上存在差异。

图11显示了在2021年2月12日和2022年2月6日之间由NER过程提取的超过50K的位置的热图。这个数字代表了通过271885个推特手柄代表的所有政治领导人、活动家和支持者的用户所提到的地点名称。因此,提议的系统能够以聚合格式(如图11所示)以及单个政治领导人(如图2、图3、图4、图5、图6、图7、图8、图9和图10所示)表示位置。也可以在指定的时间间隔内审查个别政治领导人的位置情报。

图 11.热图显示在2021年2月12日和2022年2月6日之间提取了超过50K的位置

本节还展示了拟议系统通过不同时间间隔谱段检查政治领导人位置情报的能力,如图12、图13、图14、图15、图16、图17和图18所示。图12、图13、图14、图15、图16、图17和图18显示了来自比纳利·耶尔德·勒姆推特的位置情报。比纳利·耶尔德·勒姆生于1955年12月20日,2016年至2018年担任土耳其第27任总理。2016年至2017年,他担任正义与发展党(AKP)领导人。我们的系统成功地处理了2021年2月19日至2022年2月6日从他的官方推特@ @ BayyIdidiRIM(由Twitter的蓝色标签或验证图标)所产生的498个推特的Biali-YLD LR m。在这498条推文中,31条是混合推文,94条是负面推文,131条是中性推文,242条是正面推文。图12显示了处理Binali Yıldırım 94条负面推文的结果,使用情绪分析和NER。如图12所示,NER从Binali Yıldırım的94条负面推文中检测到17个日期时间实体、50个地点实体、93个组织实体、32人实体、27个数量实体、1个URL实体和93个其他实体。如图12所示,在监测期间,Binali Yıldırım提到32人、50个地点,通过他的负面推文,我们的全自动流程捕捉到了93个组织。图13显示了从2021年2月22日和2022年2月5日之间的Biali-Y L*Rr m的94个负面推文中提取的所有50个位置。当系统的用户选择一条特定的推文时,所选推文中指定的所有位置名称都会被提议的系统检测并显示在地图上,如图14所示。最后,图15、图16、图17和图18显示了不同时间间隔的位置情报。

图 12.2021年2月22日(2022年2月5日~2022年2月5日)土耳其政治领袖94项负面推文的NER和情感分析结果

最后,表3显示了2021年2月12日至2022年2月6日之间推特数量的前10位Twitter处理的降序。如表3所示,大多数推文是从中东国家的国家新闻机构获取的,因为这些机构报道了大部分政治新闻。应该指出的是,从表3可以看出,突尼斯非洲新闻社在监测期间表现出了最消极的情绪。

5. 讨论

NER曾被用于多个领域,包括生物医学领域,如[30]所示。在[30]中,研究人员确定了14篇仅在生物医学语料库中使用NER的文章。在我们之前的研究中,NER被用于在一个通用领域中生成全球事件的位置,而不是特别关注政治科学[11,12]。此外,在[17]中,我们对基于NER的技术的实施主要集中在社会科学领域。根据现有文献,政治学语料库中从未报道过NER。如[4,5,6,7,21,22]所示,现有的政治学研究直接使用Twitter订阅源中的位置字段,而没有应用NER算法。由于这是第一项在政治学领域应用基于NER算法的研究,本研究观察到了以往研究中从未探索过的独特案例[4,5,6,11,12,21,22,30]。在我们的实验中,我们目睹了几个术语被错误地归类为位置实体(即误报),以及几个有效的位置实体没有被我们的NER算法实现识别为位置实体(即误报)。此外,也有政治领导人使用讽刺的案例,因此,我们实施的情绪分析对情绪进行了错误的评分。此外,在一些情况下,自动翻译过程误译了一些非英语推文。因此,情绪分析和NER的后续处理产生了错误的分类。由于这三种不同类型的错误(即位置分类错误、讽刺引起的情绪分类错误和误译)而导致的整体错误分类的影响必须进行系统测量。

如表4所示,对选定的领导人进行了准确度、精度、召回率和分数测量,包括埃及的阿卜杜勒·法塔赫·埃尔西西、伊拉克的巴勒姆·萨利赫、伊拉克的福阿德·侯赛因、巴勒斯坦的穆罕默德·卡里姆、伊拉克的穆斯塔法·卡希米、以色列的鲁文·里夫林和沙特阿拉伯的费萨尔·本·法尔汉。如表4所示,巴勒姆·萨利赫的推文处理准确度最高,为0.99,鲁文·里夫林的推文处理准确度最低,为0.94。然而,该系统的总体性能为0.90准确率、0.90召回率、0.90 F1分数和0.97准确率。

6. 结论

我们使用这种创新的方法,可以从推特提要生成位置信息,无论位置字段或推特是空的,还是地理标记信息缺失,正如我们最近在[11,12,17,18]中的研究所表明的那样。然而,我们之前的研究都没有在政治学领域应用基于NER的位置提取方法。在[11] 2019冠状病毒疾病中,我们使用NER在社会科学领域中产生位置信息,包括全局事件分析和COVID-19态势感知。然而,本文展示了一种新的方法,可以从政治领导人、外交官、政府官员以及政治支持者的Twitter订阅源中自动生成位置和地理空间情报,总准确率为97%,即使Twitter地理标记的位置信息缺失。所提出的系统利用基于人工智能的技术和算法,如语言检测和翻译、情感分析和NER,在一系列地图(如ESRI ArcGIS地图、Microsoft Bing地图等)上为政治科学家和研究人员动态表示地理空间情报。使用这种新颖的方法,政治学家或研究人员可以做出基于证据的政治决策。本文还展示了在相当长的时间内(即2020年1月1日至2022年2月6日)执行此类系统的可行性,以及捕获以数百万条社交媒体消息(包括文本、图像和视频)为代表的大数据的可行性。这项研究只关注于处理推文中的文本信息,我们没有处理推文中的图像或视频文件。然而,在未来,我们计划使用图像和视频处理算法。

此外,在未来,我们努力使用深度学习算法,如卷积神经网络(CNN)、线性回归、逻辑回归、聚类算法,如期望最大化(EM),类似于我们之前在人工智能和机器学习方面的工作[9,10,11,12,13,14,15,16,17]。

译文完整版收录于《俄乌战争的开源情报分析案例》



扫码关注我们
每天有最新消息
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
国内外顶尖高校联合发布首个「新冠NLP数据集」METS-CoV|NeurIPS 2022
史上最强朋友圈心理学解析,没有之一
全球8成政要使用社交媒体,奥巴马粉丝数称雄
在直播火爆的今天,为何YouTube走得小心翼翼?
美国为何能一直引领前沿科技,连中情局都在做风险投资
【资料】如何利用Twitter进行威胁情报搜集,提升主动网络防御的能力?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服