打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据很可能高高举起轻轻落地

2013年8月7日晚上接受《东方早报》记者电话采访发表,主题是各地正在推出的大数据行动计划,第二天见报的“沪渝粤陕争推大数据行动计划”一文引用了一些我的观点,当然不会直接批评什么,但谈了政府最该做什么,言下之意目前这些“行动计划”可能并非最优先要办的事情。其实去年11月我在“文汇时评”上发的一篇文章,就已经明确自己的看法了,此处不再赘述。

诚如《早报》那篇文章标题所言,各地正在大数据领域蠢蠢欲动,不过我估计这次地方政府的反应很可能不同最近的“智慧城市”,甚至可能不如“第三次工业革命”(后者的响应程度明显不如“智慧城市”),大数据很可能只在商业领域真正起到作用,其他则难说,不要说什么“核心技术研发”,即便大家谈论很多、许多人认为政府最得心应手的公共项目,这次恐怕也只能高高举起轻轻放下。原因之一是当今最高领导对创新什么似乎尚未发话(可能有太多更加紧迫事务亟需处理,心思不在这里),地方上四周望望不会贸然行动,至于那些“行动计划”,可能只是相关部门的习惯动作,;其次可能是地方政府债务缠身,手头较紧、粮草不足,即使想要大手笔也心有余力不足;而企业这头,早就说过,那些电商之类根本无需政府操心,自己觉得有利可图就会去做,而其他企业和研发机构,脑子精明着呢,没有政府大项目“不用白不用”,根本不会来凑热闹。

听上去有点悲观?其实不是。说实话当前我们内心的发展道路是不是靠创新,其实决非定论,如许多前车之鉴所证明,如果没有真正的改革思维,政府起劲的这些“新兴技术产业”的动作还是小点好、少点好。

以下是发表在上海《科学》杂志今年4月号上的文章,现在来看似乎有点过时。原稿其实很早就完成,但杂志社希望等到发布后再上博客。问题是时过境迁,我的兴趣也有点转移,所以拖到现在才帖上:

大数据时代的数据意识和数据素养

无论在科学研究和生产制造领域,还是在社会管理和国防安全领域,数据正在爆发增长,一个数据产生重大价值、数据驱动创新的时代已经来临。大数据将逐渐成为现代社会基础设施的一部分,许多领域都会因它而发生本质上的变化,政府、产业界和学术界必须做好迎接大数据趋势的准备,而我们则应具备数据意识,使数据素养成为每个人的基本素养之一。

当前,大数据的影响力正如日中天。有人认为,正在到来的大数据时代将会全方位地推动产业创新、改变社会管理的面貌并且改善人民生活。值得注意的是,以往对一些所谓的大趋势,国际上经常是众说纷纭、意见不一,而最近几年,从各国政府、大型企业,到包括严谨的科学类杂志在内的各家媒体,对作为当今发展热点的大数据却几乎持同样观点,很少有争议,这是很难得的现象。

在国内,信息化行业首先感知大数据的到来,股票券商情况未明就迅速推出市场机会报告,其他各行各业的企业、商家、技术研发部门也都先后跟进,经济媒体的传播及赶制出来的有关大数据的中外图书迅速畅销,使得大数据开始成为社会大众关注的热点。而媒体曝光的美国一家商店比父亲更早知道女儿怀孕的报道,不仅让人们了解到数据分析的威力,更凸显了个人行为“数据化”的风险。 

听过了大数据的神奇后,接下来需要冷静思考对策,准确把握趋势,因势利导促进产业转型发展,提升城市管理水平。

 

数据、大数据和大数据分析学

对于“数据”的概念,不能望文生义,认为它只是定量的数字。数据(data)在拉丁语中原指“得到的东西”。在信息化的语境下,它是指收集、测度到并保存起来可管理可利用的信息。而信息意义更加宽泛,是指物质(包括人、物体和自然界)运动过程体现出来的形态变化。例如,天空中一片乌云飘来,不管有没有人观察记录,都会产生各种信息,但只有测度和记录下来(比如摄像或者将其用各种参数加以描述),这些信息才能成为数据。在当代最基础的数据是机器(例如自动控制设备、物联网等)所采集的电信号,文字、图像和影像都是最常见的数据。未来,人类的感觉、情绪或气味等都可能被测度和记录成为数据。目前,除了传统纸张印刷和磁带记录外,绝大多数数据都是以0或1的形式储存在计算机里,将来很可能会出现新的记录技术。

大数据与大量数据是不同的概念,大数据具有数量(volume)、增速(velocity)、多样性(variety)和价值(value)4个特征。大数据并非严格意义上的科学术语,有一种被广泛引用的说法认为大数据是常规技术无法处理的数据,这算不上定义,但其中暗示了大数据的标准是不断发展的。大数据的英文Big Data 1997年就已经出现在有关存储技术的论文里,2001年出现在计算机人工智能杂志的文章标题中。直到最近几年,由于采集的数据急剧增长,常规储存和处理手段难以应付,大数据被大量用于标识过于庞大的数据。

数量是大数据的主要标志之一。据信息技术权威咨询公司IDC估计,2011年世界数据总量已经达到泽字节(ZB,1021字节)的量级。

但是,大数据的大不是仅指其数量大,其中还包括增速快的含义。早在2010年,全球每分钟就有35小时的录像上传YouTube,每月有60亿张照片上传Facebook,每天有2亿条微博上传Twitter、3000亿封电子邮件发送。以上还仅仅是社交性媒体的数据量,而工业流程、自动控制、交通物流、遥感遥测,以及保护公私安全的摄像所产生的数据可能更多。

大数据的结构复杂,类型多样。由阿拉伯数字组成的表格最具有结构化,文本的结构就要复杂得多,大数据中增长最快的是视频和音频,它们常常被认为是非结构化的数据,实际上是半结构化或者复杂结构化的数据。

大数据之所以引起巨大的关注,关键在于这些似乎令人不堪负担的数据洪流里蕴藏着巨大的财富。这些数据精确地记载了过去和现在发生的事,对面向未来的决策有着极其重大的意义和价值。在数据中找出关联,发现规律和验证假设,可极大提升决策的准确性和可靠性,使决策真正智慧。智慧决策不仅有助于新科学规律的发现、企业取得更大的市场竞争力,而且会给社会生活和管理带来革命性的变化,最终造福人类。

如果说工业革命的核心是能源,那么,计算机和网络的诞生则开启了信息革命,而大数据是信息革命的继续,将信息从知识的载体发展到智慧的源泉,成为社会财富的新来源。能够把大数据变为财富和智慧的就是大数据分析学(Big Data Analytics)。

很早就有人认为科技文献的增长是指数型的,而近年来的数据量的增长肯定更快。从分析的意义上说,数据量大不是最大的问题,增速高才是更大的挑战,所以实时高速分析是大数据分析学的核心能力,也是其区别于以往的统计分析和数据挖掘等技术的重要特点。大数据分析学在并行处理的平台上对不同来源、形式和结构的大量数据进行实时分析,从而发现未知的模式、隐蔽的关联和其他有用信息。传统的信息分析技术主要针对所谓的交易数据,忽略或者无法处理那些新出现的网络数据,如博客、碎片化的交流和搜索痕迹,以及移动工具和传感设备所采集的数据等,而大数据分析学将有可能在这些数据的深度分析、价值挖掘方面发挥重要作用。

多方合力促成的大数据趋势

大数据之所以成为一种大趋势,是多方因素促成的。首先是数据本身,随着信息采集技术的发展与大规模推广应用,加上近几年社交网络异军突起,带来了最活跃的数据源,其中新增部分绝大多数都是非结构化的数据。其次,一些信息技术企业和研究部门多年来深耕细作,在信息采集(如物联网)、分析(如商务智能和机器学习自动推理)以及分布式并行处理(如云计算)等方面取得了一定突破。这种类似“原料”的急剧增长和“工具”的逐渐成熟是造就大数据趋势的重要原因。

还有另外一方面的因素不可忽略,那就是需求的拉动。21世纪初在世界范围发生的经济危机暴露了全球经济发展缺乏突破性的创新,曾经最活跃的信息技术虽然不断出现新动向,但是在推进产业和社会发展方面一时缺乏显著的突破口,产业界热切期盼新的创新动力。而建立在Web2.0平台上的开放式创新、“集体智慧”,以及智慧地球、智能电网等前沿应用,无不要求前所未有的数据处理和分析能力,广泛的社会应用需求造就了大数据趋势。

早在信息技术业界鼓吹大数据之前,电子商务企业就在实践中通过对交易数据的分析,发现了新商机,其中的一些故事通过媒体大肆传播为大家熟知,虽然在严格意义上,它们还难以作为大数据分析学的典型案例,但是已经充分展示了数据驱动创新的可能性,并为社会认识大数据趋势造势。例如IBM提出的“智慧的地球”,一开始人们并没有看出其真正的创新内核,认为它就是一系列信息新技术的应用,宽带、物联网和云计算堆积在一起就是“智慧”。不久后,数据得到新的通道、处理手段和管理平台,数据分析开始大行其道了,众人明白这才是产生智慧、创造价值的真正来源。无论那些企业的商业动机如何,它们都在客观上普及了数据意识,为需求面推动大数据趋势做出了贡献。

科学数据是个独立的体系,它与商业和社会管理的大数据是并行发展的。科学研究历来是海量数据的重要来源,1960年代,科学界就已经注意到科技文献的信息“爆炸”,互联网开放民用后,最早的一个直接应用就是传送粒子碰撞等物理实验中产生的海量数据。生活中,往往用天文数字来形容数字之大,而现代射电望远镜采集的宇宙信息正是天文数字。2011年,美国建成的一台望远镜每秒采集的数据达到1吉比特。数据科学(Data Sciences)和数据学(Dataology)的兴起可能早于大数据的流行,最终它们与大数据殊途同归。

在任何国家,政府都是拥有数据的“大户”,是观测、调查和统计管理等高价值数据的最大拥有者。近年来,各国政府尝试走向透明,开放公共数据已经成为政府改革最基本的步骤。一些国家建立的data.gov平台将数据集中开放,成为民主政治最直接、最重要的体现,而且为企业产品的市场化创造了有利条件。例如,美国一家起初才90名员工的小企业,租用了亚马逊公司的分析平台,依靠政府公开的土壤调查和气象观察海量数据来精准计算赔率,为农业业者提供对冲气候风险的保险服务。之后,其业务迅速发展,聘用业务员规模达到1万名,并受到了风险资本的青睐,在竞争激烈的保险业务市场中异军突起。

数据、技术和需求三流汇合,以及政府、科学界和部分企业界各自努力,促成了大数据趋势,而媒体的传播以及类似“智慧地球”的精心包装和应用推广,也使大数据在社会上迅速普及,激发出更多的需求。目前所看到的还只是一个方向和一些案例,大数据的“利好”还远远没有释放,大数据趋势将会延续较长的时期。

如何应对大数据趋势

随着大数据神秘面貌的逐渐显现,一个严峻的问题浮出水面,它与我们有没有关系?我们该如何应对?

笔者认为,不同的对象应采取不同的对策。与大数据相关技术直接有关的企业和研发机构需要尽早掌握现有技术的应用,并且研究该领域的技术发展机会,找到可能取得突破的局部领域。对其他各类企业来说,当务之急是把握大数据趋势,着力推动自身的数据驱动创新。国外许多电子商务企业早在“大数据”这个词流行以前,已经在数据挖掘和文本挖掘技术的帮助下,在管理客户关系、发现个性化消费模式和精准推送广告方面开展了创新,而且取得一定成效。在国内,阿里巴巴等一些企业已开展了相关的大数据业务,但是多数企业尚未充分认识到大数据对企业未来发展的重要意义,所以能不能抓住大趋势的机遇、实现数据驱动的创新,很可能是未来企业竞争的焦点,中国企业在大数据领域将有极大的拓展空间。

对政府来说,除了在一些公共领域可以规划推动大数据试验性和示范性应用外,更需要关注战略性和基础性的长远政策,例如人才培养、基础性研究的支持,努力构筑适应大数据时代的新“游戏规则”,即研究制定既鼓励开放又兼顾安全和个人隐私的政策。数据资源是全民财产,除少数涉及机密和隐私外,政府应该推动数据公开,推动建立大数据时代的信息新秩序,为大数据趋势造福社会做出最大贡献。

数据意识和数据素养

大数据趋势与个人的关系也非常密切。在大数据时代,无论是不是在数据处理、数据分析或相关技术平台领域工作,每个人都应当在意识上、知识和技能上做好准备,都需要提高自身的数据意识和数据素养。

其实,数据意识和数据素养是同一事物的两面。数据意识是认识层面,要求大众知道数据有意义有价值,并能意识到数据管理不善可能带来的危害。而数据素养是一种能力,能够理解本行业本专业的数据问题和意义,能够与数据专家对话,使数据产生价值,帮助企业提升竞争力、提高管理决策的有效性和及时性。

素养可能是外来词,从英文原文看,素养(literacy)的本义就是断文识字,其反义词是文盲(illiteracy)。在计算机和网络时代,素养升级成信息素养。数据素养是科学素养的重要组成部分,也是信息素养的重要方面。为什么在信息素养之外还要提出数据素养?这是因为,人们已经普遍掌握了利用计算机和互联网进行信息处理的日常技能,在平台和渠道的制约已经相对较小的情况下,作为信息内容基础的数据越来越重要。如前所述,和在数据科学领域的专家一样,各行各业的从业人员在日常生活和工作中,同样会感受到数据的作用和影响力越来越大,从传统到新兴的各个行业都面临数据驱动创新的挑战,从个人生活到政府管理都需要趋向数据驱动的决策。在大家都会使用电脑和网络、新一代移动智能工具逐步普及的情况下,理解数据的价值和负面影响、把握数据、用好数据,将成为下一阶段信息素养竞争的关键。

数据素养不是一个新名词,最先流行于美国教育界。一段时期以来,美国大学生热衷于商科文科,而对科学、技术和医学(Science, Technology and Medicine,STM)不重视。美国政府认为这样可能会削弱国家竞争力,便采取了一系列措施,在院校教育方面加强相关的理解和运用数据的课程,科学数据素养便是其中的内容之一。2007年,美国国家科学基金会(National Science Foundation,NSF)资助了提升本科生科学数据素养的项目,华裔信息科学家秦健博士领衔开发了一套为期7周的数据管理课程,其具体内容比较偏重技术性的知识。

在大数据时代,数据素养需要走出课堂,成为每个人适应潮流、应对挑战的基础素养之一。我国的学历教育和阶梯式培训需要借鉴并自行开发相关的课程,包括自学的课件。需要强调的是,素养不是有标准答案、用来应付考试的知识点,它和学习能力类似,需要不断提升,仅仅依靠院校的课程是不够的,已经工作的人员更加应当通过实践、交流和培训的途径提升自己的数据素养。在正规课程以外,数据素养还包括一些基础性的普遍要求,无论是专业还是非专业人员都需要具备。例如,对数字有敏感度,了解数据的价值,认识到数据局限性,对数据出处、采集和处理方法和定义范围有一定判断力;善用数据,能够读懂各种统计、民意调查、药物“治愈率”等数字表达的意义,不会轻易被“精确”数字所骗;充分认识大数据时代国家信息安全、企业商业秘密和个人隐私面临的新挑战,关注企业(机构)和个人可能遍布在各处的“数字痕迹”。

可能有人认为,与那些超级计算机、网络平台和分析软件相比,意识和素养没有什么“技术含量”,但是事实上,大数据价值的实现在很大程度上取决于这些“非技术”因素。国际上影响甚大的麦肯锡公司在2011年6月的报告“大数据:创新、竞争和生产率的下一个前沿”中指出,美国到2018年将短缺14~19万数据分析师,而各行各业理解本行业数据、读得懂数据分析结果,能够与数据科学家对话的人才缺口高达150万。这些人基本上是行业专家,他们比普通行业专家的优势就在于拥有优质的数据素养。在大数据浪潮汹涌之时,很早就为大数据鸣锣开道的《纽约时报》连续发出警告,“直觉与大数据同样重要”(2012年12月31日),“数据算法要靠人类掌舵”(2013年3月12日)。这些报道主要针对那些在各行各业工作的行业专家,他们始终是本企业数据的产生、利用和管理的直接参与者,比任何外部人员更加了解行业的深层次问题,一旦具备足够的数据意识和数据素养,他们就能够与数据科学家和处理数据的信息技术专家对话合作,真正理解数据分析的结果,将分析学成果转化为企业的智慧决策,从而实现更大的价值。

在目前这个“众包(crowd sourcing)”和“集体智慧(collective intelligence)”越来越重要的开放式创新时代,数据驱动的技术与产业创新需要大众参与,数据驱动的社会管理和政府决策的进步更加需要依靠社会大众,而在大数据改变日常生活方面,普通人的作用更为突出,他们不应当是大数据趋势的旁观者,而是提出个性化需求和实现新消费模式创新的真正主角。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
电力数字化人才发展——电力行业数字化转型系列13
走出去智库:德国IT业的趋势及投资风险
大数据4V特征与六大发展趋势  2015-
深度 | 陈潭:大数据战略实施的实践逻辑与行动框架
将大数据分析融入产业转型及创新
智慧养老【572】未来五年智慧养老趋势
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服