打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
互联网行业分析三---大数据发展

“小沃”为客户开发项目中经常遇到开发后的平台软件系统产品实际运营中效果不是太好,“小沃”也是一个刨根问底的工作狂,所以收集了对应各行业的市场调研报告进行分析,一方面可以精准的了解客户开发需求;另一方便也是能为客户提供相关建议,避免不必要的投资。所以萌生了每天为大家分享各行业市场调研报告的想法,希望能给大家带来方便。

今天“小沃”就跟各位朋友分享下'2018年中国互联网行业发展态势'!

记不住的可以收藏或者拉倒页尾有下载原版文件方式哦!(此文只截取原文中部分数据,如需要原文件,请按文章尾部进行操作)

麻烦大家多多关注帮忙转发,谢谢大家支持!

一、大数据安全技术发展情况

面对上述大数据安全挑战与威胁,产业各界在安全防护 技术方面进行了针对性的实践与探索。

(一)大数据平台安全技术

随着市场对大数据安全需求的增加,Hadoop开源社区增加了身份认证、访问控制、数据加密等安全机制。商业化Hadoop平台也逐步开发了集中化安全管理、细粒度访问控 制等安全组件,对平台进行了安全升级。部分安全服务提供 商也致力于通用的大数据平台安全加固技术和产品的研发, 已有多款大数据平台安全产品上市。这些安全机制的应用为大数据平台安全提供了基础机制保障。

1、Hadoop开源社区增加了基本安全机制,但安全能力 不能满足现实需求

Hadoop开源系统中提供了身份认证、访问控制、安全审计、数据加密等基本安全功能。身份认证方面,Hadoop 支持两种身份验证机制:简单机制和 Kerberos 机制。简单机制是默认设置,根据客户进程的有效 UID 确定用户名,只能避免内部人员的误操作。Kerberos 机制支持集群中服务器 间的认证和 Client 到服务器的认证。因为Kerberos 可以实现较强的安全性,同时保证较高的运行性能,目前还没有哪 种认证方式可以取代 Kerberos认证。基于Kerberos 的认证 方式对于系统外部可以实现强安全认证,但Kerberos 的认 证颗粒度基于操作系统用户,无法支持系统内组件之间的身份认证。访问控制方面,目前大数据安全开源技术在访问控 制方面主要有基于权限的访问控制、访问控制列表、基于角色的访问控制、基于标签的访问控制和基于操作系统的访问 控制等几种方式。POSIX权限和访问控制列表方式可用于HDFS、MapReduce、HBase中,Hive支持基于角色的访问控制,HBase和Accumulo提供了基于标签的访问控制。

在以上几种访问控制方式中,企业主流使用的是基于权限的访问控制和基于角色的访问控制。大数据场景下用户角色众多,用户需求更加多样化,难以精细化和细粒度地控制每个角色的实际权限,导致无法准确为用户指定其可以访问的数 据范围,实现细粒度访问控制较为困难。大数据环境访问控制的复杂性不仅在于访问控制的形式多样,另一方面在于大数据系统允许在不同系统层面广泛共享数据,需要实现一种集中统一的访问控制从而简化控制策略和部署。安全审计方面,Hadoop开源系统各组件均提供日志和审计文件,可以记录数据访问过程,为追踪数据流向和发现违规数据操作提供原始依据。但 Hadoop 各组件分别进行基本的日志和审计 记录,并存储在其内部,实现全系统的安全审计较为困难, 需要使用外部的日志聚合系统从集群中所有节点拉取审计日志,放入集中化的位置进行存储和分析。数据加密方面,大数据环境下需要实现数据在静态存储及传输过程的加密保护,其难点在于密钥管理。从 Hadoop2.6 开始,HDFS 支持原生静态加密——应用层加密,是一种基于加密区的透明加密方法,需要加密的目录被分解为若干加密区,当数据写入加密区时被透明地加密,客户端读取数据时被透明地解密。 对于动态传输数据,对应 RPC、TCP/IP 和 HTTP,Hadoop 提供了不同的动态加密方法,保证客户端与服务器传输的安全性。目前 Hadoop 开源技术能够支持通过基于硬件的加密方案,大幅提高数据加解密的性能,实现最低性能损耗的端 到端和存储层加密。加密的有效使用需要安全灵活的密钥管 理和分发机制,目前在开源环境下没有很好的解决方式,需要借助商业化的密钥管理产品。

2、商业化大数据平台解决方案已经具备相对完善的安 全机制

商 业 化 的 大 数 据 平 台 , 如Cloudera公 司 的CDH(Cloudera Distribution Hadoop)、Hortenworks 公司的 HDP(Hortonworks Data Platform )华为公司的FusionInsight、星环信息科技的 TDH(Transwarp Data Hub)等,在平台安全机制上,做了如下几个方面的优化。集中安 全管理和审计方面,通过专门的集中化的组件(如 Manager、 Ranger、Guardian)形成了大数据平台总体安全管理视图,实现集中的系统运维、安全策略管理和审计,通过统一的配 置管理界面,解决了安全策略配置和管理繁杂的难题。身份 认证方面,通过边界防护,保证Hadoop集群入口的安全, 通过集中身份管理和单点登录等方式,简化了认证机制,通 过界面化的配置管理方式,可以方便的管理和启用基于Kerberos 的认证。访问控制方面,通过集中角色管理和批量 授权等机制,降低集群管理的难度,通过基于角色或标签的访问控制策略,实现资源(例如文件、目录、表、数据库、列族等访问权限)的细粒度管理。加密和密钥管理方面,提供灵活的加密策略,保障数据传输过程及静态存储都是以加 密形式存在,也可以实现对 Hive、HBase 的表或字段加密,同时提供更好的秘钥存储方案,并能提供和企业现有的HSM(HardwareSecurity Module)集成的解决方案。商业化大数据安全方案从 2008 年开始起步,经过了大量的测试验证,有众多部署实例,大量的运行在各种生产环境,技术成熟度高。由于这类安全方案的安全机制是只针对 特定平台开发,安全保障组件仅适用于该平台,对于其他大 数据平台,很难采取此类方案实现平台安全加固。

3、商业化通用安全组件可以为已建大数据平台提供安 全加固方案

通用安全组件是指适用于原生或二次开发的 Hadoop 平台的安全防护机制,一般实现方式是通过在 Hadoop 平台内 部部署集中管理节点,负责整个平台的安全管理策略设置和 下发,实现对大数据平台的用户和系统内组件的统一认证管 理和集中授权管理。通过在原功能组件上部署安全插件,对数据操作指令进行解析和拦截,实现安全策略的实施,从而实现身份认证、访问控制、权限管理、边界安全等功能。身份认证方面,在兼容平台原有 Kerberos+LDAP认证机制的基础上,支持口令、手机、PKI 等多因素组合认证方式,实现外部用户认证和平台内部组件之间的认证,支持用户单点登录。访问控制方面,引入DAC、MAC、RBAC、DTE 等 多种访问控制模式,实现 HDFS 文件、计算资源、组件等细 粒度的访问控制,支持安全、审计、操作三权分立。实现平 台安全配置基线检查,提高大数据平台自身的安全性。还实 现敏感数据的动态模糊化管理等功能。

通用安全组件易于部署和维护、适合对已建大数据系统 进行安全加固,可以在不改变现有系统架构的前提下,解决 企业的大数据平台安全需求。灵活性强,方便与现有的安全 机制集成。这类产品的提供者一般都是专业的安全服务商, 专注于安全问题的解决,防护机制的完备性强,精度高,为开源大数据平台提供了较完备的安全加固方案。

(二)数据安全技术

数据是信息系统的核心资产,是大数据安全的最终保护 对象。除大数据平台提供的数据安全保障机制之外,目前所采用的数据安全技术,一般是在整体数据视图的基础上,设置分级分类的动态防护策略,降低已知风险的同时考虑减少对业务数据流动的干扰与伤害。对于结构化的数据安全,主要采用数据库审计、数据库防火墙,以及数据库脱敏等数据 库安全防护技术;对于非结构化的数据安全,主要采用数据 泄露防护(Data leakage prevention, DLP)技术。同时,细 粒度的数据行为审计与追踪溯源技术,能帮助系统在发生数 据安全事件时,迅速定位问题,查缺补漏。

1、敏感数据识别技术作为数据安全监控的必要技术条 件逐步实现自动化

在敏感数据的监控方案中,基础部分就是从海量的数据中挑选出敏感数据,完成对敏感数据的识别,进而建立系统的总体数据视图,并采取分类分级的安全防护策略保护数据安全。传统的数据识别方法是关键字、字典和正则表达式匹配等方式,通常结合模式匹配算法展开,该方法简单实用, 但人工参与的相对较多,自动化程度较低,随着人工智能识别技术的引入,通过机器学习可以实现大量文档的聚类分析,自动生成分类规则库,内容自动化识别程度正逐步提高。

2、数据防泄露技术发展相对成熟并向智能化方向演进

DLP 是指通过一定的技术手段,防止用户的指定数据或信息资产以违反安全策略规定的形式流出企业的一类数据安全防护手段。针对数据泄露的主要途径,DLP 采用的主要技术如下:针对使用泄露和存储泄露,通常采用身份认证管理、进程监控、日志分析和安全审计等技术手段,观察和记录操作员对计算机、文件、软件和数据的操作情况,发现、识别、监控计算机中的敏感数据的使用和流动,对敏感数据 的违规使用进行警告、阻断等。针对传输泄露,通常采取敏感数据动态识别、动态加密、访问阻断、和数据库防火墙等技术,监控服务器、终端以及网络中动态传输的敏感数据,发现和阻止敏感数据通过聊天工具、网盘、微博、FTP、论坛等方式泄露出去。目前的 DLP,普遍引入了自然语言处理、机器学习、聚类分类等新技术,将数据管理的颗粒度进行了细化,对敏感数据和安全风险进行智能识别。'智能安全'将会 成为DLP技术发展的趋势,大数据分析技术、机器学习算法的发展与演进将推动数据泄露防护的智能化发展,DLP将实现用户行为分析与数据内容的智能识别,实现数据的智能化 分层、分级保护,并提供终端、网络、云端协同一体的敏感 数据动态集中管控体系。

3、结构化数据库安全防护技术基本成熟,非结构化数 据库安全防护亟需加强

结构化的数据安全技术主要是指数据库安全防护技术,可以分为事前评估加固、事中安全管控和事后分析追责三类,其中评估主要是数据库漏洞扫描技术,安全管控主要是数据库防火墙、数据加密、脱敏技术,事后分析追责主要是数据库审计技术。目前数据库安全防护技术发展逐步成熟。而在针对云环境和大数据环境的安全方面,针对非结构化数据库的防护方案已经由一些技术领先的厂商提出,但技术成熟度 较低。

4、密文计算技术因多源数据计算机密性需求成为研究热点

随着多源数据计算场景的增多,在保证数据机密性的基础上实现数据的流通和合作应用一直是困扰产业界的难题,同态加密和安全多方计算等密文计算方法为解决这个难题 提供了一种有效的解决思路。

同态加密提供了一种对加密数据进行处理的功能,对经过同态加密的数据处理得到一个输出,将这一输出进行解密,其结果与统一方法处理未加密的原始数据得到的输出结果一致。也就是说,其他人可以对加密数据进行处理,但是处 理过程不会泄露任何原始内容。同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果。因为这样一种良好的特性,同态加密特别适合在大数据环境中应用既能满足数据应用的需求,又能保护用户隐私不被泄露,是一种理想的解决方案。2009年,Gentry提出了第一个全同态加密体制使得该方面的研究取得突破性进展,随后许多密码学家在全同态加密方案的研究上作出了有意义的工作, 促进了全同态加密向实用化的发展,但是目前同态加密算法 的计算开销过高,尚未应用到实际生产中。

安全多方计算(SecureMulti-PartyComputation, SMPC) 是解决一组互不信任的参与方之间保护隐私的协同计算问 题,SMPC 要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。安全多方计算的这一特点,对于大数据环境下的数据机密性保护有独特的优势。通用的安全多方计算协议虽然可以解决一般性的安全多方计算问题,但是计算效率很低,尽管近年来研究者努力进行实用化技术的研究,并取得一些成果,但是离真正的产业化应用还有一段距离。

5、数字水印和数据血缘追踪技术发展明显滞后于实际需求

以上的数据识别、密文计算、安全监控和防护是'事前' 和'事中'的安全保障技术,随着数据泄露事件的频繁发生, '事后'追踪和溯源技术变得越来越重要。安全事件发生后泄 露源头的追查和责任的判定是及时发现问题、查缺补漏的关键,同时,对安全管理制度的执行也会形成一定的威慑作用。目前常用的追踪溯源技术包括数字水印和数据血缘追踪技术。

数字水印技术是为了保持对分发后的数据流向追踪,在数据泄露行为发生后,对造成数据泄露的源头可进行回溯。对于结构化数据,在分发数据中掺杂不影响运算结果的数据, 采用增加伪行、增加伪列等方法,拿到泄密数据的样本,可追溯数据泄露源。对于非结构化数据,数字水印可以应用于 数字图像、音频、视频、打印、文本、条码等数据信息中, 在数据外发的环节加上隐蔽标识水印,可以追踪数据扩散路径。但目前的数字水印方案大多还是针对静态的数据集,满足数据量巨大、更新速度极快的水印方案尚不成熟。

数据血缘(Lineage,Provenance,Pedigree)亦可译为血统、起源、世系、谱系,是指数据产生的链路,数据血缘记载了对数据处理的整个历史,包括数据的起源和处理这些 数据的所有后继过程(数据产生、并随着时间推移而演变的整个过程)。通过数据血缘追踪,可以获得数据在数据流中的演化过程。当数据发生异常时,通过数据血缘分析能追踪到异常发生的原因,把风险控制在适当的水平。目前数据血缘分 析技术应用尚不广泛,技术成熟度还未达到大规模实际的应 用需求。

(三)个人隐私保护技术

大数据环境下,数据安全技术提供了机密性、完整性和 可用性的防护基础,隐私保护是在此基础上,保证个人隐私 信息不发生泄露或不被外界知悉。目前应用最广泛的是数据 脱敏技术,学术界也提出了同态加密、安全多方计算等可用 于隐私保护的密码算法,但应用尚不广泛。

1、数据脱敏技术发展成熟,是目前应用最广泛的隐私 保护技术

数据脱敏是指对某些敏感信息通过脱敏规则进行数据 的变形,实现对个人数据的隐私保护,是应用最广泛的隐私保护技术。目前的脱敏技术主要分为如下三种:第一种加密方法,是指标准的加密算法,加密后完全失去业务属性,属于低层次脱敏。算法开销大,适用于机密性要求高、不需要保持业务属性的场景。第二种基于数据失真的技术,最常用的是随机干扰、乱序等,是不可逆算法,通过这种算法可以生成'看起来很真实的假数据'。适用于群体信息统计或(和)需要保持业务属性的场景。第三种可逆的置换算法,兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。表映射方法应用起来相对简单,也能解决业务属性保留的问题,但是随着数据量的增大,相应的映射表同量增大,应用局限性高。算法映射方法不需要做映射表,通过自行设计的算法来实现数据的变换,这类算法都是基于密码学的基本概念自行设计的,通常的做法是在公开算法的基础上做一定的变换,适用于需要保持业务属性或(和)需要可逆的场景。数据应用系统在选择脱敏算法时,可用性和隐私保护的平衡是关键,既要考虑系统开销,满足业务系 统的需求,又要兼顾最小可用原则,最大限度的保护用户隐 私。

2、匿名化算法将成为未来解决隐私保护问题的有效途径

数据匿名化算法可以实现根据具体情况有条件地发布部分数据,或者数据的部分属性内容,包括差分隐私、K 匿 名、L 多样性、T 接近等。匿名化算法要解决的问题包括: 隐私性和可用性间的平衡问题,执行效率问题,度量和评价 标准问题,动态重发布数据的匿名化问题,多维约束匿名问 题等。匿名化算法由于能够在数据发布环境下防止用户敏感 数据被泄露,同时又能保证发布数据的真实性,这一特性在大数据安全领域受到广泛关注。目前,匿名化算法还有很多挑战性问题亟待解决,算法的成熟度和使用普及程度还不是很高。匿名化相关算法是目前数据安全领域的研究热点之一,目前取得了丰富的研究成果,也得到了一些实际应用,后续匿名化算法会在隐私保护方面得到越来越多的应用。

(四)大数据安全技术发展现状总结

国内外大数据平台安全、数据安全、隐私保护相关的技术已经取得了一定的进展,但在应对一些新的网络攻击形式、数据 应用场景、隐私保护需求方面,大数据安全技术的现有能力 和水平还存在一定差距。

平台安全方面,集中的安全配置管理和安全机制部署能 够基本满足目前平台的安全需求,大数据平台的漏洞扫描与攻击监测技术相对薄弱。目前的商业化大数据平台和商业化通用安全组件,为Hadoop生态系统增加了集中安全管理、准入控制、多因素认证、细粒度访问控制、密钥管理、数据 脱敏、集中审计等安全机制,在一定程度上填补了大数据平 台安全机制的空缺,基本满足目前平台的安全需求,但 Hadoop仍处在快速发展的阶段,认证机制依赖Kerberos,其认证中心可能会成为系统瓶颈。平台防攻击技术方面,目前大数据平台仍然使用传统网络安全的防护手段,对大数据环境下扩大的防护边界和更加隐蔽的攻击方式无法做到全面覆盖,而且行业对大数据平台本身可能的攻击手段关注较少,预防手段不足,一旦有新的漏洞出现,波及范围将十分巨大。

数据安全方面,数据安全监控和防泄露技术相对成熟, 数据的共享安全、非结构化数据库的安全防护以及数据泄露溯源技术亟待改进。目前,数据泄露问题在技术上可以得到较完备的解决,敏感数据自动化识别为防泄露提供了基础技术;人工智能、机器学习等技术的引入,使得数据防泄露向 智能化方向演进;数据库防护技术的发展也为数据泄露提供 了有力的技术保障。密文计算技术、数据泄露追踪技术的发 展仍无法满足实际的应用需求,难以解决数据处理过程的机 密性保障问题和数据流动路径追踪溯源问题。具体而言,密文计算技术的研究仍处在理论阶段,运算效率远未达到实际 应用的需求;数字水印技术无法满足大数据环境下大量、快速更新的应用需求;数据血缘追踪技术未获得足够的应用验证,其成熟度尚未达到产业化应用水平。

隐私保护方面,技术的发展明显无法满足当前迫切的隐 私保护需求,大数据应用场景下的个人信息保护问题需要构建法律、技术、经济等多重手段相结合的保障体系。目前,应用广泛的数据脱敏技术受到多源数据汇聚的严重挑战而 可能面临失效,匿名化算法等前沿技术目前鲜有实际应用案 例,普遍存在运算效率过低、开销过大等问题,还需要在算 法的优化方面进行持续改进,以满足大数据环境下的隐私保 护需求。如前所述,大数据应用与个人信息保护之间的突出 矛盾不单是技术问题,尤其是在缺乏技术保障的当下,更需 要通过加快立法、加强执法规范大数据应用场景下的个人信息收集、使用行为,尽快构建政府管理、企业履责、社会监督、网民自律等多主体共同参与的个人信息保护制度体系。

二、大数据安全技术未来发展建议

大数据正在成为经济社会发展新的驱动力,日益对经济 运行机制、社会生活方式和国家治理能力产生重要影响,大数据安全已上升到国家安全的高度。基于所梳理的大数据安 全问题挑战与大数据安全技术发展现状,我们对大数据安全 技术的发展提出如下几点建议:

(一)需要站在总体安全观的高度,构建大数据安全综 合防御体系

安全是发展的前提,必须全面提高大数据安全技术保障能力,进而构建贯穿大数据应用云管端的综合立体防御体系,以满足国家大数据战略和市场应用的需求。一是建立覆盖数据收集、传输、存储、处理、共享、销毁全生命周期的安全 防护体系,综合利用数据源验证、大规模传输加密、非关系 型数据库加密存储、隐私保护、数据交易安全、数据防泄露、 追踪溯源、数据销毁等技术,与系统现有网络信息安全技术 设施相结合,建立纵深的防御体系;二是提升大数据平台本 身的安全防御能力,引入用户和组件的身份认证、细粒度的 访问控制、数据操作安全审计、数据脱敏等隐私保护机制, 从机制上防止数据的未授权访问和泄露,同时增加大数据平台组件配置和运行过程中隐含的安全问题的关注,加强对平台紧急安全事件的响应能力;三是实现从被动防御到主动检 测的转变,借助大数据分析、人工智能等技术,实现自动化 威胁识别、风险阻断和攻击溯源,从源头上提升大数据安全 防御水平,提升对未知威胁的防御能力和防御效率。

(二)从攻防两方面入手,强化大数据平台安全保护

平台安全是大数据系统安全的基石,基于前面的分析可以看出,针对大数据平台的网络攻击手段正在发生变化,企业面临愈加严峻的安全威胁和挑战,传统的安全监测手段难 以应对上述攻击变化,未来大数据平台安全技术的研究不仅要解决运行安全问题,还要进行理念创新,针对不断演进的网络攻击形态,设计大数据平台安全保护体系。在安全防护技术方面,目前无论是开源还是商业化大数据平台,都处在高速发展阶段,在平台安全机制方面的不足之处依然存在,同时,新技术新应用的发展也为平台安全带来未知的安全隐 患,需要产业各方在大数据平台安全方面加大投入,从攻防两方面入手,密切关注大数据攻击和防御两方面的技术发展 趋势,建立适应大数据平台环境的安全防护和系统安全管理 机制,构筑更加安全可靠的大数据平台。

(三)以关键环节和关键技术为突破点,完善数据安全 技术体系

大数据环境下,数据在流动中发挥价值,其应用生态环 境日益复杂,数据生命周期各环节都面临新的安全保障需求,数据的采集和溯源成为突出的安全风险点,跨组织数据合作的广泛开展触发了多源汇聚计算的机密性保障需求。目前,敏感数据识别、数据防泄露、数据库安全防护等技术发展相对成熟,多源计算中的机密性保护、非结构化数据库安全防护、数据安全预警以及数据发生泄露事件的应急响应和追踪溯源等方面还比较薄弱。应积极推动产学研用结合,加快密文计算等关键技术在运算效率提升方面的研究和应用推广。企业应加强数据采集、运算、溯源等关键环节的保障能力建设,强化数据安全监测、预警、控制和应急处置能力,以数据安全关键环节和关键技术的研究为突破点,完善大数据安全技术体系,促进整个大数据产业的健康发展。

(四)加强隐私保护核心技术产业化投入,兼顾数据利 用和隐私保护双重需求

在大数据应用场景下,数据利用和隐私保护是天然矛盾的两端,同态加密、多方安全计算、匿名化等技术可以实现这两者良好的平衡,是解决大数据应用过程中隐私保护问题的理想技术,隐私保护核心技术方面的进展必然会极大推动 大数据应用的发展。目前隐私保护技术的核心问题是效率,存在计算开销大、存储开销大、缺乏评价标准等问题,均处于理论研究阶段,尚未在工程实践中广泛应用,难以应对多数据源攻击、基于统计的攻击等隐私安全威胁。大数据场景下,个人隐私保护已成为一个备受关注的议题,未来日益膨 胀的隐私保护需求将带动专业化隐私保护技术的研发和产 业应用。需要鼓励企业、科研机构研究同态加密、多方安全计算等前沿隐私保护算法,同时推动数据脱敏、数据审计等技术手段在大数据环境下的增强应用,提升大数据环境下隐 私保护技术水平。

(五)重视大数据安全评测技术的研发,构建第三方安 全检测评估体系

今天的“2018年中国互联网行业发展态势”分享就到这里,恭喜你利用碎片时间完成行业知识的学习;

待续。。。。。。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
调研报告:网络大数据安全存在问题及建议
图解《数据安全法》
沈澍:互联网 供应链金融数据平台建设研究 | 互联网金融
世界信息安全大会|贾志明:密码技术与数据安全的“纵与横”
大数据平台安全防护的总体思路
等保2.0新标准解读
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服