打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
每周学点大数据 | No.1何谓大数据

灯塔大数据将每周持续推出《零基础学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~

每周五定期更新,欢迎来做客呦!

No.1期带你认识大数据咚咚咚。

一天下午,王老师的门被敲响了。

Mr. 王:请进。

门被轻轻地推开了,随后被有礼貌地关上了。

Mr. 王:你就是小可吧?

小可:是的,王老师您好,我就是前几天与您联系的那个学生,我想学习些大数据方面的知识。

Mr. 王:好啊,咱们可以一起讨论,看你不太面熟,你是计算机专业的学生吗?

小可:我是计算机专业的大一新生,会用程序设计语言完成一些很简单的程序设计,不过到目前为止我还没有学习过任何关于大数据算法的课程,我也并不了解什么是算法设计与分析,就连算法是什么都不太清楚,可是每天都能听见大家在讨论大数据的问题,我也很想了解大数据方面的内容,这样的基础我也能听懂大数据的内容吗 ?

Mr. 王:当然可以,我可以给你讲几节讨论课,相信学习过后,你就明白什么是大数据、如何分析大数据和应用大数据了。小可:那真是谢谢王老师了。

Mr. 王:别客气,有问题直接来问我就可以了。

身边的大数据

小可:王老师,那什么是大数据呢?

Mr. 王:你还真是一下就问了个很复杂的问题。其实大数据是一个很模糊的概念,很多人和学术组织都对其提出过自己的定义,但是至今还没有公认的定义。我们先不谈确切的定义,先来举几个例子说明吧。你平常用社交网络吗?

小可:嗯,是的。

Mr. 王:你有很多好友吧?他们是不是每天都会发很多的状态和消息?

小可:是的,甚至有很多新闻我都是首先通过社交网络知道的。社交网络传递信息的速度真的很快,朋友们每天发布的状态我都看不完,而且不仅有原创的内容,还有很多来自他们好友的转载内容。

Mr. 王:其实社交网络上的这些信息就是一种典型的大数据。

小可惊讶地说:原来这就已经是大数据了?我一直以为大数据都在实验室里面呢。

Mr. 王:此言差矣,其实大数据就在我们身边。我们常用的社交网络上就有着非常巨大的信息量,虽然一个人发布的状态非常有限,但由于使用的人数众多,加之转载和评论,巨大的数据规模就使得社交网络信息无法在短时间内由人工或者由少量的几台计算机存储和管理。站在社交网络之外看待它,就会发现里面有很多且杂乱无章的信息和内容,同时其规模非常大。

这就是大数据的一个典型例子。

小可恍然大悟地说道:哦,原来这就是大数据啊,那其实我每天都在接触大数据啊。

Mr. 王笑道:的确,大数据就在我们每个人的身边,随着信息时代的到来,我们每个人每天接触到的数据量都是非常大的。但你在查看这些消息的时候,有没有看到除字面内容以外的东西呢?小可想了一下,说:好像没有什么,我关注的只是消息本身。

Mr. 王:我们研究大数据不只是能知道它的数据量很大,或者说仅仅研究如何把它们存储起来,我们还要发掘在大数据中隐藏的知识和有价值的信息。

小可:哦?大数据中隐藏着知识?

Mr. 王:是的,从表面上看,大数据可能只是一些简单的文本、杂乱的符号或者是一些数字的序列或者集合,但是从这些文本或者数字的背后,我们可以发掘其作为一个群体所具有的一些性质,从而发现一些对我们有意义、有价值的信息,所以我们才要研究大数据。

小可:大数据不是很大很大吗?那么我们研究它不就会变得很困难吗?

Mr. 王:不错,大数据的量很大很大,我们单单是把其中的信息逐个地访问一遍都很困难,所以发掘其中的知识就更加困难了,这就是研究大数据要解决的重要问题,也就需要我们这些研究大数据的人、热爱大数据的人加倍地努力了。

小可思考片刻后,说:那在超市里面,每年都会有很多人去买东西,他们的购物单上又会包含着很多内容,对超市来说,这些购物的记录就是“大数据”吧?而通过分析这些购物单,发现顾客更喜欢买哪些商品,这算不算一种通过大数据分析出的知识呢?

Mr. 王:很聪明嘛,你举了一个很好的例子。商业数据也是大数据的一个重要体现,超市购物的明细记录、公司运营的详细账目这些数据量都是很大的,处理起来非常费时费力,而其中又包含着有价值的信息,通过这些信息不仅可以分析出本年度公司的运营情况,同时可以指导下一年度公司的营销战略,这些数据对公司来说可谓是价值连城。

小可:那么大数据在别的方面又有哪些体现呢?

Mr. 王:你应该对生物遗传有所了解吧。

小可点点头道:是的,人体通过DNA 携带遗传信息。

Mr. 王:在医疗和生物计算领域中,每次对DNA 序列的分析都会产生大量的数据,这个数据量已经不是GB 可以衡量的了,甚至要达到PB 级别或者更大。而这么大的数据,不仅计算机的内存装不下,而且一般计算机的硬盘都已经存不下了。即使是扫描一遍,在上面发现一个小序列都需要一些时间,在这些数据上面做分析将是一件更困难的事情。这也是一种大数据。

不仅在生物学中如此,而且在很多科学仪器的使用过程中也都会产生大量的数据,比如天文观测、显微观测、现在逐渐应用的传感器和传感器网络在使用过程中都会记录下大量的数据。

这些仪器不停地记录下的数据,都涉及如何存储、如何分析研究的问题,这些都是大数据。

生活中的大数据

小可:嗯。

Mr. 王:那我们就给大数据下个定义吧。

定义1 :所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理,并整理成为人类所能解读的信息。(Dan Kusnetzky, What is “Big Data”?)

定义2 :不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。(维克托· 迈尔- 舍恩伯格、肯尼斯· 库克耶,“大数据时代”)

定义3 :“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(“大数据”(Big Data)研究机构Gartner)有了前面的那些例子,这些定义是不是相对好理解一些呢?

小可:嗯,我懂了。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
每周学点大数据 | No.9递归——以阶乘为例
每周学点大数据|No.44 MapReduce 图算法概述
每周学点大数据|No.24二叉搜索树回顾
关于大数据四大方面的十五大关键技术详解
【原创投稿】互联网神经学系列之三——解剖互联网大脑,互联网神经生理学
推荐算法(5)利用社交网络数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服