打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【论文】基于开源情报的情报处理系统模型构建

【摘要】从开源信息与情报处理的理念、框架和技术体系出发。强调现代科技情报工作的态势解析与决策服务应借鉴大数据研究的最新进展,加快变革科技信息的采集、获取、挖掘、分析及影响方式,及时和变革性地提升科技知识的产生,使其更为直接地辅助科技决策。基于现代科技情报处理业务流程的需求模式,构建出面向大数据的科技情报处理分层体系,并对各层级功能设计、技术框架进行了重点阐述。

【关键词】科技情报处理系统 开源情报 云计算 系统模型 数据挖掘 Hadoop 中图分类号 G350 文献标识码 A 

文章编号1002 - 1965( 2014) 03 - 0054 - 04 DOI 10. 3969 /j.issn. 1002 - 1965. 2014. 03. 011

全球范围内科技信息愈发呈现出海量性、多源性、 动态性及异构性等特征,仅依靠传统封闭式的科技情 报处理手段难以支撑系统、全面、精准的科技态势解析工作。开源情报( Open Source Intelligence) 研究是近年来引起广泛关注的情报课题。根据美国国家情报局的解释,开源情报工作是从公开可获得的来源收集信息,对这些信息进行开发并及时传递给用户以满足其情报需求的工作。

当前,欧美等发达国家已逐步实现基于开源数据的科技情报采集、加工及分析利用, 尤其是美国率先运用大数据理念与技术,面向开源数据着力提升国家科技情报能力,并制定了《大数据研究和发展计划》 (Big Data Research and DevelopmentInitiative) 。 

当前,面对多元、海量的开源数据处理已成为诸多企业与科研实体完成科技创新的不竭源泉,基于开源情报的情报处理系统层出不穷,Google、IBM、Oracle、 Amazon、Facebook 等跨国巨头企业及其研发机构已成为发展开源数据处理技术的主要推动者。Oracle和IBM公司先后推出了面向互联网开源数据的Oracle Exadata与PureData系统; Google公司通过大规模集群和MapReduce软件,每月处理的互联网开源数据量达到数百PB。

可以说,科技情报处理工作已然进入开源时代。面临这种形势,我国应尽快在科技情报处理及态势解析工作中引入开源情报处理系统有关理念及技术,否则势必在未来的情报竞争中处于不利地位,影响科技情报支撑国家科技进步的效果。

1.国外研究现状

1.1 开源情报引起业界及各国政府高度

关注事实上很多科研工作人员都在从事各类基于开源情报的收集和分析工作。然而由于许多国家和机构将科技情报工作的重点放在付费情报、秘密情报等闭源情报工作上,使得开源情报似乎成为一种补充性工作。

最早转变思路的是曾担任过美国海军陆战队情报官的戴维 ·史迪尔( DavidSteele) ,他建议国家情报工作转换工作思路,重视开源情报采集与分析。此后,面对开源情报的采集成本小、风险低、内容丰富等原因,美国、澳大利亚及欧洲国家相继重视开源情报处理工作,直至2012 年,美国酝酿已久的“大数据研发计划”正式发布[5],目的是提高科技工作者从海量复杂的开源数据中及时掌握情报并获取知识的能力,加速美国在科技领域发明的脚步。

1.2 开源情报已在科技情报领域初步应用 

目前美国多家联邦机构正在开展大量的开源情报处理研究项目,涵盖国防、能源、航天、医疗等各个科研领域,包括机器读取项目,开发能够处理自然语言的学习系统, 实现人工智能应用; 面向任务的弹性云项目,开发收集、处理、挖掘多元异构开源数据的系统方案; 图片与视频检索分析项目,使科技情报分析人员能够从超大型图片视频库中快速获取视频内容等; 美国国家科学基金会、国立卫生研究院等联邦机构宣布先期共同投入超过数亿美元资金,用于扩大科技情报工作者可利用和加工的情报源[6],进一步研发面向开源数据的情报采集、加工、挖掘、储存和共享的核心技术,并广泛利用云计算理念和大数据模式建立面向各种科研应用的开源情报处理复杂系统。

1.3 科技态势解析与决策迫切需要利用大数据 

大数据时代,科技情报研究面临新的挑战。科技态势的手段及工具近年来呈跳跃性发展,目标要求也越来越高,正从科技信息向科技情报,进而迅速向科技解析转化[7]。面对欧美发达国家已将大数据理念与技术投入开源情报的实际研究中,目前我国科技情报领域尚未建立对国外科技政策行动、战略规划、态势分析的开源情报分析系统,难以及时、系统地收集、汇总和分析国外科技情报总体态势,对于互联网、数字出版物、 公开数据库等开源载体信息难以及时跟踪感知与系统掌握; 同时,已有的基于闭源情报的数据采集与分析系 统涉及数据信息范围小而零散,情报分析周期较长,情报更新速度较慢,难以快速形成整体感知与全局智能关联分析,难以调集优势资源与专家力量进行集中研判[8],难以迅速作出科技情报研判与决策。在这样的背景下,科技情报研究工作亟需推进大数据辅助决策,提升对科技数据资源的控制能力,构建集海量数据采集、处理、综合分析与应用于一体的面向大数据的科技情报态势解析与决策的情报支撑与服务系统。

2.基于开源情报的科技情报处理系统功能 

大数据时代,科技情报的生态环境发生了巨大的变化,庞大而复杂的数据考验着科技情报系统的技术体系结构和数据处理能力。建设集数据采集、处理、综合分析、服务应用以及服务可视化于一体的科技情报战略情报综合分析平台,需要实现面向大数据的信息 收集与利用。为情报的搜集、分析、存储和相关决策等提供强有力的技术支持,为保证科技决策的准确、高效性提供可靠的工作平台。

2.1 情报采编报子系统 .

信息采集层依托科技情报数据采集体系,根据采集策略,实时准确采集来自不同数据源的数据,并对数据进行抽取结构化等清洗预处理。信息来源包括网站/微博的网络爬虫获取的数 据、标准资源库、内部文件、企业/机构接口数据等。实现对网络爬虫获取的原始网页信息做结构化数据抽取; 支持流数据及动态网页信息的抽取[9]; 支持网页中内嵌各种文档格式的下载与解析; 对通过各接口获取的数据,有些需要识别其应用层协议、数据解密之后再抽取其结构化的数据。

2. 2 情报感知分析子系统 

建立并更新原始素材库,为系统提供基础数据。实现数据的归类存储与数据更新。能够按数据来源分类存储原始数据,形成原始资源库,并对其做索引,供系统对原始信息的查找。能够对存储的数据,按照更新策略定期做更新。对系统所采集到的信息做数据的深入分析和挖掘,为实现用户认知信息检索功能[10]奠定基础,以支撑上层的业 务需求。

具体功能包括:底层挖掘,即实现文本挖掘的预处理和通用挖掘流程,形成挖掘资料库; 实时存储, 以数据库和文件两种形式存储并索引,按策略做更新,实现多维度检索库[11]; 定向跟踪,对特定关注对象的定向跟踪分析; 热点挖掘,热点信息自动聚类,通过机器学习自动发现热点; 统计分析,支持对入库信息的智能统计报表; 演变分析,关注对象的发展、扩散、分布等分析; 对比分析,实现对象内在相关性、连动关系分析与信息溯源; 决策支持,为决策提供数据依据,估计决策影响。

2.3 大数据服务提供子系统 

主要实现提供各种动态快讯、智能简报、热点分析报告、专题深度报告、统 计分析报告、季度/年度研究报告、多功能检索、分类导航浏览等功能,帮助情报分析人员应用恰当的分析方法与技术,深入分析情报数据库的信息,生成简报、报表、报告等形式的情报产品,并提供情报检索与决策支持服务,推送至情报用户使用。实现情报产品与服务的展示与推送,包括快讯、简报、专题报告、统计分析报告、季度报告、年度报告等,服务对象根据个性化需求定制的产品与服务进行推送。

3.基于开源情报的科技情报处理系统业务及流程 

3.1 信息采集业务 

信息采集的主要任务是将互联网、标准资源库、企业资源库、现有工程数据、内部资 料和其它来源的数据收集起来,形成原始数据。对采集到的原始数据,做一定的预处理、进行粗分类并存储,形成原始素材库,存储客观的基础素材,并对原始素材库做索引以支持原始信息的定位。

3. 2 情报加工与分析业务 

实现对情报做深度挖掘加 工,自动提炼信息关键词、摘要,针对结构化后的数据做索 引。经过筛选自动生成相应文档或报表,对情报做分类, 发现热点信息,定向跟踪某情报,情报概况的统计分析,为相关决策提供数据支持等,形成情报服务和产品的数据基础。

3. 3 情报展示与服务业务 

存储情报服务和产品的历史数据。将平台的服务和产品采用多种方式发布、推送给不同的用户,包括订阅、热点 周报、专题报告及年度汇总报告等。

3.4 总体业务流程 

依据科技情报工作的操作流程,根据情报收集的需求,采集原始情报。然后对情报做存储、索 引、整理和深入分析等情报加工工作。最后将加工后产出的相关情报信息展示给用户。基于情报处理流程,可以将整个平台划分为不同功能层。科技情报战略情报综合分析平台主要由情报采编报子平台、情报感知分析子平台、大数据服务提供子平台构成,功能架构如图 1 所示。

基于各层的功能 实现,可以完成对所关注情报的自动化快速、准确捕 获。通过对情报的加工与挖掘,能够有效地为相关情报工作提供情报产品和数据分析支持,并方便、高效地实现情报的展示和推送。

4.基于开源情报的科技情报处理系统模型技术实现框架 

4.1 搭建私有云平台 

海量非结构化数据采集、存储和挖掘是本面向开源科技情报处理平台的主要技术特点,目前最常见的解决方案是使用 Hadoop 集群,部署私有云平台作为支撑平台: IaaS 层实现对物理服务器和存储空间的虚拟化,为上层提供运行所需的环境;Hadoop 层为数据存储提供分布式文件系统和并行计算框架 MapReduce[12]。

图 1 科技情报综合分析平台流程架构图 

4.1.1 IaaS 层 

IaaS 层通过采用虚拟化技术把物理服务器虚拟为一个或多个虚拟服务器,通过采用IaaS 软件实现对物理和虚拟资源的统一管理、调度和监视,在必要时可以提供虚拟机迁移来实现提供高可用和集群负载均衡,提升资源利用效率。

4.1.2 Hadoop层 

Hadoop 是基于分布式的用于大规模数据的存储与处理的平台,分为 HDFS 和MapReduce 两个组成部分。其中HDFS 为 Hadoop 分 布式文件系统,负责数据的存储工作; MapReduce 用于大规模数据的并行化处理。

4. 2 数据采集与存储层技术框架 

数据采集服务基于 Hadoop 搭建的私有云平台,采集对象包括网络爬虫获取的数据和标准资源库、专有数据库等接口数据。对于接口数据可通过相关接口直接获取并存储和索引。

a. 爬虫策略设置。首先根据用户提供的主题关键 词、相关文档,训练主题向量,并形成训练库,将训练好的主题向量存储在主题向量库中。其次根据用户需求配置爬虫的采集规则和更新频率。

b. 数据采集。在每一轮数据爬取过程中,爬虫根据设定的采集规则和 URL 得分选择一定数量的 URL 来抓取,接着解析原始网页,提取网页正文和外链。针对每一个外链,根据其对应锚文本与主题向量的相关度赋予分值,各个待抓取链接按照得分高低排序,使得那些主题相关的网页得到优先抓取。同时根据用户设定的更新频率对网页库中已经过期的网页重新采集。

4.3 数据挖掘层技术框架 

4.3.1 底层挖掘 

底层挖掘层的功能主要包含: 将获取初始数据进行清理并得到规范后每条记录的元数据,之后对其中的文本信息进行分类与聚类,提取摘要与关键词等并将它们作为元数据扩充到原始数据集中,之后再对这些信息做初步的索引,定制更新策略对历史数据进行备份并加入新数据。

4.3.2 上层挖掘

上层挖掘包含了信息检索与智能分析两个部分。信息检索部分,其中又分为了全文检索、摘要检索、主题检索、关键词检索高级检索五大功能。用 Lucene 开源全文检索引擎提供的接口来定制 MapReduce 作业进行高效的建索引操作。

智能分析部分,主要包含了热点的发现、演变分析、预测三个关联度比较大的功能,另外还有信息的溯源、情感分析、定向跟踪、关联分析、决策支持、统计分析等几个分 功能。针对下层挖掘出的信息按时间段进行分类后, 通过主题挖掘技术从中找出热点,并通过历史数据中追踪热点的生命周期模型,研究热点演变的过程。

5.结论 

开源情报涉及的情报源纷繁复杂、数量巨大、价值重大,依托开源情报处理系统更好地挖掘利用开源情报,并辅助科技情报决策是本文立意的初衷。探讨建立具有更强的决策力、洞察发现力和流程优化能力的情报处理系统是基于开源情报的情报处理系统模型构 建的目标。然而,开源情报处理系统所依赖的大数据处理技术毕竟刚刚起步,因此,已构建的系统模型成熟应用于大规模开源情报处理工作尚需长期的过程,需要在实践过程中不断完善和发展。此外,本系统模型还需解决如下问题: 信息过载问题,利用云平台可以在一定程度上解决计算资源整合优化的问题,但开源情报的多元异构属性需花费大量资源来筛选有用情报,在实际信息过滤工作中仍离不开科技情报人员的人工筛选工作; 结果信度问题,由于开源情报有较大的随意性,可靠性较差,目前的情报挖掘分析模块所产生的情报可视化结果可信度仍需进一步验证与纠错。

文章来源:《情 报 杂 志》2014年3月第 33 卷 第 3 期

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据环境下科技情报研究的新模式
企业竞争情报工作流程
军事情报我们应该借鉴什么
化柏林_网络海量信息环境下的情报方法体系研究
安全七八谈 | 我国态势感知发展(6):中国移动态势感知应用实践
提炼数据价值,卓数帮您预见未来
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服