打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
上海推进大数据研究与发展三年行动计划(2013

前言

在国家和上海市“十二五”科技发展规划及《上海市中长期科学与技术发展规划纲要》指导下,上海市科学技术委员会通过近一年时间的充分调研和讨论,梳理了市场和商业模式创新需求、大数据资源和技术基础、研发能力和人才现状等。经过充分酝酿、多次征求意见,编制本规划:

维基百科把大数据定义为一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。为加快上海大数据研究和产业化布局,培育数据产业,服务智慧城市,促进经济结构调整和产业转型,特制定本计划。

一、国内外发展现状

(一)国外

发达国家启动大数据布局。2012年3月,美国政府发布《大数据研究和发展倡议》,投资2亿美元发展大数据, 用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平;2012年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通讯技术)战略,发布“新ICT计划”,重点关注大数据研究和应用;2013年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑。

跨国IT企业进入大数据领域。传统数据分析企业天睿公司(Teradata)、赛仕软件(SAS)、海波龙(Hyperion)、思爱普(SAP)、Cognos、SPSS等在大数据技术或市场方面各占据一席之地。谷歌、Facebook等大数据资源企业优势显现。甲骨文、IBM、微软、SYBASE、易安信(EMC)、英特尔等企业陆续推出大数据产品和方案抢占市场,如甲骨文公司的Oracle NoSQL数据库、IBM公司的InfoSphere BigInsights数据分析平台、微软公司Windows Azure上的HDInsight大数据解决方案、EMC公司的Greenplum UAP(Unified Analytics Platform)大数据引擎等。

大数据技术发展迅猛。数据技术从早期在单机上处理单一类型数据,发展到当前在计算机集群上处理多类型数据,实现时间宽松的数据分析应用。随着数据量发展到PB、EB级甚至更大,并且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。以HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB为代表的一批大数据通用技术和开源项目迅猛发展。

数据科学研究不断壮大。在大数据应用的技术需求牵引下,数据科学研究和人才培养引起各国重视。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。Facebook等着名企业开始设立数据科学家岗位。

(二)国内

政府和科研机构开始高度关注大数据。2012年12月,国家发改委数据分析软件开发和服务列入专项指南;2013年科技部将大数据列入973基础研究计划;2013年度国家自然基金指南中,管理学部、信息学部和数理学部将大数据列入其中。2012年12月,广东省启动了《广东省实施大数据战略工作方案》;北京成立“中关村大数据产业联盟”。此外,中国科学院、复旦大学、北京航空航天大学等相继成立了近十个从事数据科学研究的专门机构。

数据价值链和产业链初显端倪。百度、阿里巴巴、大智慧等数据资源型和研发应用型企业初步涌现,并引领着数据产业的发展。2010年4月,淘宝推出“数据魔方”应用,开展基于淘宝网交易数据的分析和挖掘。2012年,华为公司推出了大数据解决方案和大数据存储产品。

数据产业园区建设逐步展开。上海智慧岛数据产业园、秦皇岛开发区数据产业基地、北京国家地理信息科技产业园、中国国际电子商务中心重庆数据产业园等一批数据产业园区,在有关各方的大力支持下正展开基础建设和招商工作。

二、上海基础分析

(一)优势

数据资源丰富。随着上海“四个中心”建设的全面推进,公众信息需求的不断提升,信息公共服务设施的不断完善,各行业信息化建设的深入推进,上海已经积累并将继续产生庞大的数据资源,在众多领域的重要作用越来越凸显。例如,上海拥有世界最大的医联数据共享系统,有4800万张交通卡、每天30GB交通流量信息数据,亚洲第二的证券交易额,世界第一的货物和集装箱吞吐量等。

研究实力雄厚。在基础理论研究方面,上海的高校和科研院所有较强的研究实力。在产业技术研究和推进方面,有一批面向产业的研究机构和企业研发中心,具备良好的基础积累。

产业轮廓初现。近年来,上海在数据资源整合、数据技术开发、数据应用服务等数据产业环节涌现出一批机构和企业,已经成为或正在成为推动上海数据产业发展的中坚力量,数据产业初显轮廓。

(二)不足

数据共享不足。数据资源的利用不充分,大量信息系统中的历史数据长期闲置,即使不涉及秘密,许多数据资源拥有单位公开和共享动力不足,这给跨行业数据汇聚整合造成困难,影响了大数据资源的形成。

关键技术储备不足。大数据技术储备不够,鲜有在国内外有影响的产品,缺少系统级、架构级的大数据产品。已有技术和产品的原创性、通用性不足,有待理论和关键技术突破。

产业链尚未形成。数据产业的盈利模式和服务方式等尚不明晰,缺少具有较大规模、能够带动数据产业发展的行业龙头企业,产业链各环节尚未形成明显的上下游协作发展模式。

三、指导思想与发展目标

(一)指导思想

围绕上海“创新驱动、转型发展”主线,抢占科技战略制高点,强化前沿理论研究,突破大数据关键技术,建立以企业为主体、产学研联合的发展机制,形成需求牵引、创新应用的发展模式,发展数据产业,服务智慧城市。

(二)推进原则

1、顶层规划、协同推进

通过强化顶层设计形成主体架构,建立协同共享机制,加强统筹规划,充分沟通、协调、调动各方资源,延伸大数据技术链、服务链、价值链。

2、需求牵引、创新应用

以市场需求为导向,加强基础研究,突破大数据关键技术瓶颈,不断探索创新商业模式,培育和挖掘满足国内市场特性的新业态、新模式,支撑和促进经济社会发展。

3、营造环境、开放融合

营造和完善大数据技术和产业发展所需的政策环境、融资环境、创业环境以及公共服务体系,推动大数据技术与城市经济社会各领域相关应用的深度融合。

(三)发展目标

凝聚上海大数据领域优势力量,研究大数据基础理论,攻克关键技术,研制大数据核心装备,形成大数据领域的核心竞争力,加速大数据资源的开发利用,推进行业应用,培育数据技术链、产业链、价值链,支撑智慧城市建设。具体目标如下:

1、研究数据科学基础理论,突破大数据共性关键技术,研制具有自主知识产权的若干大数据硬件装备,达到国际领先水平;

2、遵循市场需求牵引、应用导向的业务发展模式,开发一批具有产业核心竞争力的大数据软件产品;

3、突出企业创新主体地位,建设6个以上行业大数据公共服务平台,支持6类以上大数据商业应用系统的研制,培育一批带动本地数据产业发展的行业龙头企业;

4、汇聚产业和行业创新活力,制定有利于大数据产业发展的标准、规范和政策,培养和引进千名高端数据人才。

四、重点任务

(一)技术攻关和产品研制

1、基础理论研究

针对前瞻布局、技术引领的需求,整合上海研究力量,加强国内外学术和技术交流,研究、探讨并掌握数据科学的基础理论和基本方法,为数据技术开发、数据人才培养和数据产业发展提供指导和支撑。

数据科学的基础理论研究。研究数据相似理论、数据测度论和计算理论,建立数据分类学基本方法,研究数据实验的基本方法,研究数据科学的学科体系,奠定数据科学的理论基础。

大数据的复杂性研究。研究数据集复杂性的建模理论、处理过程复杂性的约简方法、知识体系复杂性的表示理论等,建立大数据处理、分析的过程模型。

科学研究的数据方法探索。探索数据密集型科学研究的共性问题,开展学科知识交叉与融合研究,建立科学研究的数据方法,并在基础较好的学科中开展实践。

2、关键技术突破

根据大数据的特征,突破或改进原有的大数据组织和存储技术、大数据分析技术,为大数据获取、管理和分析提供技术保障。

大数据获取技术。突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据管理技术。突破可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储等大数据存储技术;突破分布式非关系型大数据管理与处理技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

3、产品装备研制

在突破关键技术的基础上,研制适合大数据应用的硬件装备和软件产品,包括:大数据一体机、新型架构计算机、大数据获取工具、大数据管理产品、大数据分析软件等。

大数据一体机。研制集计算、存储、传输于一体的大数据硬件装备,实现大数据统一存储和索引管理、集群规模可动态扩展,实现PB级的数据存储、百亿级的记录管理、秒级的查询响应。

新型架构计算机。研制基于高效能大数据处理器(Data Processing Unit,DPU)和可重构互连、可变存储结构的新型架构计算机等具有自主知识产权的硬件装备。在这些硬件之上开发与之配套的系统软件,形成先进的大数据平台。

大数据获取工具。开发数据采集软件,实现每秒百万次的精准数据收集、准实时动态整合和数据清洗;研发高速数据全映像软件,实现变化数据的秒级响应、解析和复制。

大数据管理产品。开发面向领域优化的大数据管理系统,支持分布式数据存储;研发大数据环境下的低延迟的云备份软件、双活数据实时复制软件、数据隐私保护和泄露检测软件、可视化软件。

大数据分析软件。开发基于新型计算架构技术的通用分布式分析平台,支持PB级数据的分析;开发基于分布式分析平台的通用大数据智慧引擎、适用于分布式计算环境和新计算架构的大数据挖掘算法库。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
“互联网+”时代,我们需要什么样的教育评价?
大数据分析技术
冷静面对“大数据”热
【大数据】发展大数据还有啥问题
盘点 | 2017 最“热”门的十大数据技术
TDSQL带你走进数据库顶会VLDB 2018 (一) | 论文纵览
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服