打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
周锐 || 基于知识图谱的城市公共危机信息资源融合研究
摘 要

基于知识图谱构建突发公共卫生危机信息资源聚合框架,对于实现突发公共卫生危机信息资源的实时分析、精准预警与迅速响应具有重要意义。本文首先梳理突发公共卫生危机信息资源、资源聚合与知识图谱的研究情况;然后厘清突发公共卫生危机信息资源知识图谱的构建流程;其次构建基于知识图谱的突发公共卫生危机信息资源聚合框架;最后讨论突发公共卫生危机信息资源用户画像与精准预警两个应用场景。知识图谱可以实现突发公共卫生危机信息资源的深层次聚合,实现突发公共卫生危机信息资源的高层级知识应用,基于知识图谱的突发公共卫生危机信息资源聚合框架构建,对于实时动态描述突发公共卫生危机、提高突发公共卫生危机精准预警以及迅速响应,具有重要参考价值与理论价值。

作者介绍

周   锐,四川大学公共管理学院讲师;

邢琳悦,四川大学公共管理学院硕士研究生。

近年来,随着我国城镇化进程的不断加快,人口正逐步向大城市大都市圈集聚,这一方面促进了城市发展,另一方面使得大城市大都市圈越来越多地受到突发公共卫生事件的威胁与考验。2020年新冠肺炎疫情警示我们:在城市治理过程中,要高度重视突发公共卫生事件风险,建立健全突发公共卫生事件预测与响应机制,以应对突发公共卫生事件突发和蔓延。在大数据、人工智能以及物联网等新兴通信技术的推动下,信息化建设逐步成为突发公共卫生事件治理的重要环节。发达国家较高的工业化与城市化水平,为实现信息化提供了平台支撑。而我国却是信息化、城市化、工业化以及农业现代化“四化同步” 发展状态,这使得我国政府在突发公共卫生事件中进行决策的情景更加复杂,也带来了更大压力。因此要求政府借助大数据、人工智能、物联网等新兴信息技术,提升突发公共卫生事件的预测与响应能力,最终实现对突发公共卫生事件的精准治理。

党的十九届四中全会提出坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化。其中,“数字中国”战略作为新引擎,将国家治理体系和治理能力推向以数字形态为基础的新阶段,并积极解决发展问题、民众需求与社会痛点。在突发公共卫生事件应对过程中,大数据、人工智能、物联网等新兴通信技术的发展,使得学界和业界对突发公共卫生事件信息认知发生转变,逐渐从“物理空间—社会空间”二元空间向“物理空间—社会空间—信息空间”三元空间转变,空间结构的转变改变了传统应对突发公共卫生事件危机事件的思维范式与应对途径。因此,如何充分利用大数据、人工智能、物联网等新兴信息技术,从“三元空间”解构突发公共卫生事件,提升数据信息对突发公共卫生事件决策的辅助能力。因此,亟须运用大数据等新兴信息技术,实现突发公共卫生危机的实时描述、精准预警与迅速响应。

综上,本文基于知识图谱技术,探索突发公共卫生危机信息资源深度聚合的理论思考与方法探索,为实时动态描述突发公共卫生危机、实现突发公共卫生危机精准预警与迅速响应能力,提供理论指导与支持。

一、概念与研究现状

(一)突发公共卫生危机信息资源

1. 突发公共卫生危机信息资源概念与特征

(1)概念

《突发公共卫生事件应急条例》规定突发公共卫生事件,是指突然发生,造成或者可能造成社会公众健康严重损害的重大传染病疫情、群体性不明原因疾病、重大食物和职业中毒以及其他严重影响公众健康的事件。我国学界主要从“非典”过后开始进行危机传播的研究,史安斌认为“危机传播就是在危机前后及其过程中,在组织、媒体、公众之内和彼此之间进行的交流和互动过程”。信息资源是指人类经过筛选、组织、加工,并可以存取和满足人类需求的各种信息的集合。

本文认为突发公共卫生危机信息资源是指突然发生造成或者可能造成社会公众健康严重损害的影响公众健康的事件发生前后及其过程中,各类群体进行交流和互动形成的信息集合。

(2)特征

突发公共卫生危机信息资源具有爆发性、公共性、互动性、控制难度大的特点。①爆发性,由于突发公共卫生事件本身的突发性,导致信息资源具有爆发性,在短时间迅速大范围扩散。②公共性,公共卫生事件涉及范围广,涉及群体广泛。③互动性,在应对突发危机民众与政府的互动交流增强,对政府的信息资源提出更高的开放透明要求,政府也对民众需要加强信息公开与引导。④控制难度大,突发公共卫生事件的危机传播对官方信息、权威信息产生挑战,容易产生压力。

2. 突发公共卫生危机信息资源类型

目前将用户画像理论用于研究突发公共卫生事件的文献还比较少,本部分借鉴城市数据画像中的大数据分类,结合突发公共卫生事件的特征与治理趋势,将突发公共卫生事件大数据划分为传感数据、用户行为数据、政府开放数据、社会主体数据以及媒体数据五大类型,同时列举出每一种类型数据的示例和用户群体,如表1所示。在此基础上,实现突发公共卫生事件大数据画像中数据集的采集与首次分类,形成标准化、规范化的数据格式,为进一步的数据融合做准备。

(二)突发公共卫生危机信息资源聚合

国内信息资源聚合研究主要集中在图书情报档案等文化服务领域,且不断扩散到海事部门、通信部门、地理信息旅游部门等。虽然目前突发公共卫生危机领域信息资源聚合的研究还比较少,但资源聚合中的领域本体、关联数据以及语义技术等已较为成熟,为突发公共卫生危机信息资源聚合研究与应用提供了技术基础。同时部分学者已探索性地从不同视角研究危机信息资源的融合问题,如周锐等人运用数据画像技术,对新冠肺炎疫情的数据画像进行研究,其中运用数据层融合、语义层融合与服务层融合技术解决突发公共卫生事件大数据的融合问题;李欣结合突发事件危机数据来源的复杂多样性,运用词语相似度计算和Folksonomy自由标记语言,建立危机信息采集萃取的整合组织模型,实现为应急管理提供统一化情报信息数据源;彭宗超等人根据新冠肺炎疫情的特征,构建了包括疫情、医情、政情、民情和媒情为主的“五情”信息分析框架,通过分析五情走势,实现了应对疫情的监测预警;储节旺等人结合国内外研究经验,强调网络舆情预警中大数据分析既需要大数据分析,也需要数据采集、数据融合以及预警监测等,从而增强突发事件网络舆情预警的有效性。

(三)知识图谱与突发公共卫生危机信息资源聚合

本文研究的知识图谱并非指文献计量中的科学知识图谱,而是通过结构化形式,对物理世界中的实体、实体间的语义关系进行展示的语义知识库,该知识图谱在知识问答、语义搜索以及智能决策领域发挥着重要作用。知识图谱的主要内容是“实体—关系—实体”,分为不限领域知识图谱与限定领域知识图谱。不限领域知识图谱包括DBpedia、Yago、Freebase、搜狗智立方、百度知心等;限定领域知识图谱包括地理信息领域知识图谱、天眼查等领域知识图谱。知识谱图的功能之一在于很好解释海量资源语义信息与实践之间的逻辑关系,因此知识图谱正在资源聚合领域得到较好的运用。如胡吉颖等人运用数据挖掘技术对科研实体抽取与关系进行计算,基于知识图谱构建了分布式索引,实现了多维度检索的呈现与关联导航;潘承瑞等人融合知识图谱和注意力网络KG BGAT模型,构建了双线性采集器,实现了信息采集阶段获取节点间的特征交互信息,有效提高推荐结果的精准性;周莉娜等运用知识图谱实现了唐诗聚合处理,丰富了人文智能化知识服务;陆泉等基于知识图谱构建了临床医学专业主干课程的知识聚集。系列关于知识图谱与资源聚合的研究,为本文的研究提供了指导与借鉴。

突发公共卫生危机信息资源在海量增长的同时,呈现出信息分散、存在延误性与滞后性等特征,导致应对突发公共卫生危机时出现信息资源“采集不准、覆盖不全、关联不多、挖掘不足”等问题,因此亟须解决突发公共卫生危机信息资源快速增长与描述实时化、精准预警化以及响应迅速化之间的突出矛盾。知识图谱技术与方法为解决上述问题提供了新的视角与实现手段。知识图谱的目标是通过描述资源中的实体、属性以及实体之间关系,对隐性知识进行深入分析挖掘,提供知识发现与服务,最终实现信息资源的多维关联与精准决策,这与突发公共卫生危机信息资源的聚合的目的较为契合。

二、基于知识图谱的突发公共卫生危机信息资源聚合流程

学界已有学者对知识图谱构建过程开展了系列研究,如Wang等人提出构建知识图谱的数据获取、信息提取、知识整合、生成图谱以及知识更新五大环节;Cobo等提出了知识图谱的数据检索、数据处理、网络抽取、标准、映射、分析以及可视化的七大步骤;卢恒等人提出了知识图谱构建的数据获取、学术知识抽取、知识融合、构建知识图谱以及存储更新与补全五大步骤;杨玉基等人从本体设计、众包半自动语义标注、外部数据补齐以及信息抽取四个步骤构建知识图谱。虽然学者对知识图谱构建流程尚未达成共识,但可以归纳出知识图谱构建的“数据获取—图谱实现—更新维护” 的主流程思路。综合考虑突发公共卫生危机信息资源数据的数据特征,本文按照李涛等提出的知识图谱“自下向上”的构建方式,遵循知识图谱构建的“数据获取—图谱实现—更新维护” 主流程思路,设计构建知识图谱的数据采集、资源抽取、资源融合、谱图分析与可视化、资源更新与维护五大流程,如图1所示。

(一)数据采集

数据采集是利用相关装置,从系统外部获取数据并输入系统之中的接口,随着现代化信息技术的快速发展,数据采集已被普遍运用于互联网及分布领域。数据采集具备以下三方面特征:数据全面性,即数据量足够具有价值,且足以支撑起相关的分析需求;数据多维性,即数据是灵活的,且能够快速进行自定义,具有多种类型,从而满足不同的需求目标;数据高效性,即数据需求分析与需求满足的高效与及时。

(二)资源抽取

通过人工或自动化方式,从初始数据库中抽取出可用知识单元,主要包括实体抽取、关系抽取与属性抽取,形成资源库。实体抽取能够通过基于规则与词典或者统计机器学习的方法,还有面向开放域的抽取三种方式,实现从初始数据库的语料中自动识别命名实体,捕获需要的电子政务信息资源实体,并且尽可能保证抽取结果的完整准确。实体抽取的质量在一定程度上决定知识的价值。关系抽取解决电子政务信息数据的语义链接,发现实体之间的潜在关系,分为开放式实体关系抽取和基于联合推理的实体关系抽取,使得表征实体互相关联。对于电子政务信息资源的主体——非结构化数据,通常通过基于联合推理的实体关系抽取,代表性方法是马尔可夫逻辑网MLN(Markov logic network)。属性抽取有效将高质量的半结构化网页中自动抽取相应的属性名称与属性值,拓展为本体知识库。

(三)资源融合

资源融合是指对多源知识在统一框架规范下进行实体对齐、实体链接以及关系推演等,将不同的知识源通过数据整合、加工、推理验证、更新等环节,实现数据融合,达到高层次的知识组织。实体对齐又称为实体匹配或实体解析,将实体冲突、指向不明等问题消除,构建机器能够理解的知识库。主要环节包括分区索引降低计算复杂度,利用相似度函数或相似性算法查找匹配实例,使用实体对齐算法进行实例融合等。然后进行实体链接,将表述多样的实体链接到统一、规范的实体对象,由于数据来源广泛,成因多样,表达多元的特点,最终的实体及属性的表述也可能存在多种形式。最后通过关系推演,形成关系数据库,将各种资源存储。目前国内外的关系推理模型主要基于逻辑规则、知识表达或者深度学习,其发展逐渐克服对人工制定规则的依赖,能够凭借模式识别来进行规则发现,用机器学习的方法完成特征建模。

(四)图谱分析与可视化

知识图谱的分析与可视化工作,实现了电子政务信息资源的结构化表达,让其概念、实体、关系能够利用机器表达成更利于人类处理的形式。海量的互联网信息内容具备了极简的表达形式。首先将资源融合后形成的关系型数据库中的知识单元,转换为知识图谱后,将其用RDF格式存储或图数据库存储,后者具有更强的通用性,如开源图数据库Neo4j能够实现图查询语言功能、图挖掘算法功能。其次运用机器学习等挖掘实体间的关联关系,将数据导入WebVOWL等软件进行可视化展示,针对知识种类的不同,选择不同的模拟软件可能会形成地形图、主题河图、主题词图等多种表现格式,来揭示本体之间的关系。再结合社会网络分析、空间分析、历时分析等分析方法,对知识图谱进行操作解读。与此同时需要运用预测功能补齐确实的实体与关系。这一环节能够赋予机器更多的可能性,让机器代替人工实现分析、展示甚至质量评估等任务。通过多维图表,揭示客观世界中的联系,挖掘隐性关系,促进科学决策与提高服务水平。

(五)资源更新与维护

1. 概念层更新

概念层更新主要包括概念的层次更新、概念的同义关系与概念的属性定义等。由于数据开放环境使得突发公共卫生危机信息资源的知识快速更新,同时算法也存在一定的时滞性,无法适应快速变化的数据与模式,因此需要对知识图谱的数据模型进行不断的迭代更新。

一般情况下,对于不同类型变化的处理情况有所差异。①对于概念的描述、图谱以及概念间同义关系的变化,只需要通过上文构建的方法进行更新即可,不需要进行其他处理。②当变化涉及概念所依存的情境时则需要慎重考虑,对于那些造成冲突的特殊情况,则需要在对系统检测之后进行相应处理。③对于概念属性新增的,通过构建方法进行处理;而概念属性发生变化的,如类型、赋值等变化,则须依据系统检测进行相应处理;若发生属性删除情况,则需要考虑是否该属性全部被删除。若全部被删除,可以考虑直接删除该属性;如果部分被删除,则需要人工介入。

2. 数据层更新

数据层的更新主要包括两类:一是基于手动的更新。这种更新方式准确率较高,但效率较低,仅适用于那些规模不大的知识图谱。一般是通过运用开放网络,采用“众包”机制,运用大众知识对构建的知识图谱进行更新。二是基于时间戳、地理位置信息的自动更新。这依托知识图谱构建时的学习规则与实体属性,可以实时捕捉到数据本身的更新。但这种方法的运用受到一定的限制。两种更新方式各有利弊,实际中主要根据系统的定位以及组织架构等方式选择对应更新方式。但业界主要综合采用两种更新方式来提升知识更新的效率与质量。

三、突发公共卫生危机信息资源聚合框架设计

突发公共卫生危机信息资源的聚合,主要是运用知识谱图技术,通过知识图谱的聚合,实现对突发公共卫生危机资源的语义聚合并呈现出来,有利于实现突发公共卫生危机信息的资源利用与知识创新。基于知识图谱的突发公共卫生危机信息资源聚合方法基础之上,本文结合可视化技术构建了如图2所示的突发公共卫生危机信息资源聚合框架,将突发公共卫生危机信息资源聚合分为数据层、知识图谱层与实践层三个部分,其最终目的是实现突发公共卫生的实时描述、精准预警与迅速响应。

(一)数据层

数据层是实现突发公共卫生危机信息资源聚合的基础,主要通过对传感数据、媒体数据、用户行为数据、政府开放数据以及社会主体数据进行数据收集、清洗等整理工作,为突发公共卫生危机信息资源聚合提供数据基础。突发公共卫生危机信息资源的形式较多,充分显示出突发公共卫生危机大数据多源异构的数据特征。针对不同类型信息资源特征,运用不同方式进行数据收集。(1)各类传感数据,主要通过物联网监控设备,基于传感芯片、RFID读写系统等技术,对自然环境、城市环境、交通运行系统、城市社区等发生的各类实时数据进行采集;(2)用户行为数据,主要通过移动通信技术、卫星定位系统、资源语言处理等,对参与式感知系统、民众感知风险、社交媒体、网络使用等相关数据进行采集;(3)政府开放数据,这类数据主要是利用Python等对各级各类政府平台上的政府数据、医院数据、疫情数据等进行网络爬取;(4)社会主体数据,主要是通过各类业务系统获取用户交易数据、配置数据等;(5)媒体数据,主要通过各类爬虫技术、自然语言处理技术获取文本、音频、视频等数据。

(二)知识图谱层

1. 资源抽取

突发公共卫生危机信息资源具有海量、多源异构的特征,因此需要对突发公共卫生危机信息资源进行统一化描述,厘清不同节点间、知识要素间的语义关联,实现多源异构海量信息资源的归一化、标准化,为实现突发公共卫生危机信息资源的细颗粒操作提供基础与条件。通过对标准化后的信息资源进行特征向量提取,构建突发公共卫生危机信息资源元数据库。

在这一过程中,需要对不同类型突发公共卫生危机信息资源进行语义标注,从而实现对突发公共卫生危机信息资源概念、内在逻辑的系统识别。语义标注通过对原始数据进行标记,使其具有一定语义信息,使得该数据可以被机器读取并“理解”。目前主要运用本体技术、自然语言处理等技术进行语义标注。语义标注根据划分标准不同,分为不同方式,如根据存储情况可以分为嵌入式存储与独立式存储;根据自动化程度可以分为手工标注、半自动标注与自动标注。

通过资源抽取,实现突发公共卫生危机信息资源转化为计算机识别的特有格式,并通过元数据映射对数字资源进行描述。

2. 资源融合

资源融合层的主要目的是实现数字资源的知识聚合,这也是进行突发公共卫生危机信息资源融合的核心部分。通过描述数字资源,阐释数字资源间的语义关联,从而实现知识聚合。这一过程可以有效消除异构性的数字资源,规避数字资源超载问题,最终实现标准化知识的虚拟显示。资源融合主要通过概念关系、引证关系、等级关系以及映射关系实现,通过提取语义元数据和构建异构信息接口,实现异构资源间的冲突,进而实现基于语义关联的知识聚合。

3. 图谱可视化

资源融合后需要与可视化模块进行结合,运用可视化的工具与可视化模式,实现突发公共卫生危机信息资源的可视化展示,从而实现知识单元间的多维展示,提高用户对突发公共卫生危机信息资源的认识。通过可视化模型,可以有效提高用户对海量突发公共卫生危机信息资源的处理能力。同时突发公共卫生危机信息资源的可视化展示,可以帮助用户更加直观地观察知识聚合结果,在提升突发公共卫生危机信息资源利用率的同时,促进了用户深入挖掘突发公共卫生危机信息的行为。

(三)实践层

为用户提供高质量、低成本、精准化的突发公共卫生危机信息资源,是实现突发公共卫生危机信息资源聚合的终极目标。位于聚合框架的顶层部分,实践层是连接突发公共卫生危机信息资源与用户的交互接口。本部分主要关注突发公共卫生危机信息的动态性、专业数据库的完善性、机器学习技术方法的拟合性、知识图谱的实时性、预警功能的精准性等。在这一部分中,如何实现突发公共卫生危机的全方面、多维度、实时描述也非常重要,因此需要对突发公共卫生危机的时间维度与空间维度的信息进行全方位梳理,通过构建突发公共卫生危机用户画像对其进行实时描述,提高对突发公共卫生危机的预警能力与迅速响应能力。

四、基于知识图谱的突发公共卫生危机信息资源聚合的应用场景

基于知识图谱的突发公共卫生危机信息资源聚合框架设计,为突发公共卫生危机信息资源聚合提供了理论支持与实践指引。本部分探讨基于知识图谱的突发公共卫生危机信息资源聚合的具体化实践,这也是充分发挥突发公共卫生危机信息资源聚合框架应用价值的核心与关键。

突发公共卫生危机信息资源不仅包括各类突发公共卫生危机信息的初始数据资源,还包括经过聚合后的突发公共卫生危机信息资源图谱等。在突发公共卫生危机信息资源获取过程中,公共卫生危机治理部门比较关心的是各类信息的聚合问题。公共卫生危机信息资源聚合,一方面需要聚合公共卫生危机相关各类信息,另一方面需要实现基于精准预警与快速响应需要的危机治理智能化决策。运用公共卫生危机相关的各类数据资源,构建反映公共卫生危机信息资源的用户画像,解决突发公共卫生危机实时描述的问题;运用突发公共卫生危机信息资源与知识图谱数据,实现突发公共卫生危机的精准预警,解决突发公共卫生危机治理由事后治理向事前预警的问题。

(一)突发公共卫生危机信息资源的用户画像

用户画像的概念最早由Alan Cooper在1998年提出来,认为用户画像本质是一种标签化画像,是由用户统计信息、偏好习惯、社会网络以及消费行为等抽象出来的,是运用信息对人进行的真实描绘,是用综合模型来反映用户的真实情况。大数据、人工智能、物联网等新兴通信技术的不断发展,为用户画像的实现提供了技术支撑与支持。用户画像的本质与核心是对用户潜在行为进行分析,以“标签化”方式实现精准服务以及预测。用户画像较早在商品推进、信息推荐等场景中应用比较广泛。近年来逐步在突发公共卫生危机领域中应用起来。

突发公共卫生危机领域用户画像,主要是描述突发公共卫生危机依托的基础设施、突发公共卫生事件情况、医疗卫生数据、政府公开数据、舆情传播与民众的行为。如前所述,突发公共卫生危机治理已经不满足传统的事后治理,而是需要基于突发公共卫生危机的实时动态描述,实现突发公共卫生危机的精准预警与迅速响应,提升突发公共卫生危机治理能力。因此,突发公共卫生危机信息资源使用者的用户画像构建就显得尤为重要。

突发公共卫生危机用户画像构建主要包括:(1)用户画像构建参与主体,主要涉及以政府为中心的协调主体,以医院、疾控中心等部门为核心的信息主体,以及多方参与的信息加工主体;(2)用户画像构建内容,主要包括突发公共卫生危机涉及的数据分类,数据融合,基于可视化技术的时空信息动态展示,以及进行突发公共卫生危机用户画像的具体构建策略。

(二)实现突发公共卫生危机的精准预警,辅助危机治理决策

突发公共卫生危机具有随机性、蔓延性、复杂性、可诱发其他危害等特征。为有效防控突发公共卫生危机造成更大危害,预警成为危机治理的重要内容。预警是基于对环境的识别,通过行动避免或降低个体面临的各类风险,并提供有效、及时的信息支持。基于用户画像形成的数据进行实时监测,能够有效掌控公共卫生危机爆发前的线索,第一时间对危机进行预警。例如:加拿大安大略省出现SARS病例4例病症和2例死亡的情况就立即向卫生部门发出警告,启动应急计划。中国新疆应对新冠肺炎疫情时。在仅17例新增的情况下疾控部门就及时发出预警信号。因此,基于知识图谱危机信息资源能够在应对突发公共卫生危机的情况下实现精准预警。

面临突发公共卫生危机事件,在事中治理需要对各种数据进行分析把控来科学决策。(1)在决策制定过程中,突发公共卫生危机事件具有时空性,对于不同时间不同地区需要考虑多个目标,依据多源数据选择最优方案,通过权重、偏好系数等方法增加决策可靠性。(2)在决策实施过程中实现智能决策需要实现面向多层次、细粒度用户的决策,借助媒体数据、官方数据、用户行为数据来精准把控决策的实施对象。通过手机APP靶向发布、短信靶向发布、微信公众号靶向发布等方式来实现算法,提高决策发布速度与发布受众。

原文刊载于《国家治理现代化研究》第六辑,注释从略。 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
人工智能在数据治理中的应用
语言智能技术发展与语言数据治理技术模式构建
“人工智能 ”视域下的教育知识图谱
疫情大考下,如何补足短板改善治理?| 社会科学报
知识图谱主要有自顶向下(top
应对突发公共卫生事件的统筹调度经验
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服