打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【图文课件】04-7-1 大数据时代的生态学:大数据与数据科学

《生态学:管理大自然的经济学》 

Ecology: The Economy of Managing Nature

复旦大学生命科学学院赵斌教授在中国大学MOOC网站上倾心打造的《生态学:管理大自然的经济学》。关注本公众号,可在第一时间获得课程的同步更新。

☟扫码可进入中国大学慕课课程☟


最朴素的风格,最真挚的DIY课程

我记得数年前,在向别人介绍大数据的时候,我都需要花费很长的时间进行介绍,别人听了也是半懂不懂的,因为那个时候案例并不丰富。而现在,一说到大数据,几乎人人都知道在说什么。所以,我今天来给大家介绍大数据的时候,就比较简单了,只需要稍微强调一些从大数据应用来看值得关注的地方就可以了。
为了便以大家理解,也不至于让一个慕课的内容太长,所以我将这个主题分成了四个小节。大数据概念的产生及其应用,让数据科学这个词也变得炙手可热了。所以,我首先要讲的主题,就把二者联系起来:大数据与数据科学。
要列举大数据的特征,最有代表性的就是我们常说的几个V。这就是典型的三个V的模,其中Volume,是指数据量大,这个大的数据量反映在采集、存储和计算的各个环节。第二个V,是Variety,可以翻译成多样化,不仅指种类和来源多样,而且数据类型也是多样的,有结构化的、半结构化的和非结构化的数据,比如来自网络博客和网页的,还有记录的音频、视频和图片信息,甚至还有针对这些数据的地理位置等,这么繁杂的数据类型,对数据的处理能力提出了非常高的要求。第三个V,Velocity,是指速度,包括两个方面,一个是数据增长速度,一个是数据处理速度,二者都很快,时效性要求也很高。比如我们在网上常用的搜索引擎,虽然数据量巨大,但我们仍然需要在很短的时间内获得查询的结果,而且还要求几分钟前发生的新闻都能查询到,个性化推荐还很准确,这是大数据区别于传统数据挖掘最显著的特征。
三个V,有人认为不够,应该是4个V。与三个V相比,增加了Veracity,是指数据的准确性和可信度,也就是数据的质量问题。这是显而易见的,如果一堆数据,全部是垃圾数据,还不如没有。正如我们常说的,Baddataisworsethannodata
更有人认为大数据模型应该是5个V,大数据是应该有价值的。为什么特别提出这一点呢?与传统的数据相比,大数据的数据价值密度相对较低,我们在大数据中是浪里淘沙,但这又是弥足珍贵的。所以,如何结合具体的应用逻辑,并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。也有人将前三V和第四个V进行了重新排列,认为它们的关系应该是这样的。也就是说要让大数能创造价值,那就不得不注意数据的真实性。
当然,还有更V的说法。比如,这个说法增加了可视化与病毒式扩展两个特点。还有这个,又增加了三个带V的单词,虽然有一定的道理,但并不是核心特征。其实,不论是几V,大数据的数据特质,与传统数据最大的不同是数据多元、种类繁多,而且大多是非结构化的数据,更新速度又非常快,导致数据量大增。我得提醒大家注意的是,最前面介绍的三V:体量、多样性和速度,是大数据缺一不可的。大家也许认为这非常容易理解,不过,在实际应用,有不少人认为只要数据量足够大就行了,其实这是一种误解。大数据中的大,只是大数据的一个必要条件,并不是充分条件。比如,如果只是简单重复的数据,并不能算大数据,因为必须要保证多样,才能获得更多的特征;如果数据提取困难,无法保证处理速度,至少在目前不能算是大数据,也许是未来的大数据。最麻烦的是,对于这个大的解读,不同学科还不同。
比如,对IT行业的人来说,大数据对于他们的挑战是真正的海量数,当大规模计算的数据量超过1PB时,我们传统的存储子系统已经难以满足海量数据处理的读写需要,数据传输的I/O带宽的瓶颈就愈发突出的。我们来做一个简单的计算吧,如果我们要将1PB的数据按照1G/s的网络速度从北京传输到上海,这个网络速度已经够快了吧,那么一个小时也就3600个G,要把1PB的数据通过网络传输过来,就需要大约300个小时。显然,这还不如将数据存放在硬盘中用高铁运输过来。这就是一个非常巨大的传输瓶颈,IT行业的人最关注的,这是他们理解的大数据。而且,对于数据密集型计算的需求,是不能将数据进行分块处理的,因为这样就与大数据分析的初衷相违背了。因此在他们看来,最大的问题,不是缺少数据,而是面对太多的数据,却不知道如何处理,超级计算机、计算集群、超级分布式数据库、基于互联网的云计算,似乎并没有解决这些矛盾的核心问题。他们认为计算机科学期待新的革命,就是体现在这方面。显然,他们最看重的是“大”和“速度”,而对于我们大多数应用来说,我们并不一定有这么大的数据,所以我们更看重的是数据多样而有效,如果再有些丰富的功能就更好了。这也就是为什么会出现如此多版本的V。除了这个用几V进行的解读,舍恩伯格的《大数据时代》一书,对大数据的解读更有实践意义。
《大数据时代一书,明确提出了大数据时代的重大转变,我认为这就不仅仅是技术的问题了,而是一种思维方式,所以我喜欢称之为“大数据思维”,并特别赞同这本书所突出的三个特点。第一个是:利用全体数据,而不是仅仅依靠少量的数据样本;二是,关注相关关系,而不先探求难以捉摸的因果联系;三、重视混杂数据,而不是刻意追求狭隘的精确数据。为什么这么说呢?我们来逐个分析一下。
对于我们大多数人来说,我们已经形成了一种习惯,不管是我们的制度,还是各种激励机制,对于数据收集和处理,我们都希望尽可能地减少对更多数据的需求,能用少量数据完成的,我们绝对不考虑用更多的数据。我们甚至开发了一些利用尽可能少的信息来进行处理的技术,比如统计学的一个目的,就是用尽可能少的数据来证实尽可能重大的发现。如果我们总是假定自己只能收集到少量信息,那结果可能也就真的如此了。但是,我们现在已经进入了一个新的世界,在这里,几乎人人都拥有能收集和处理更大规模数据的能力。虽然获取全体数据,在大多数情况下都还是一个假设的理想条件,但随着我们获取数据的能力变得越来越强大,其实我们也正在逐步逼近全体数据,更多的测量意味着更全的数据。在许多方面,我们之前在信息匮乏的假设下做很多事情,也就是传统统计学中根据采样所进行的估计,这种小数据思维模式,是在缺少数据的条件下不得已而为之的权宜之计,并非最完美的途径。所以,大数据带来的第一个思维上的改变,是利用全体数据。当然,统计学也从未标榜其精确性,因为统计学获得的是对集中趋势或总体趋势的认识,每个个体分享其概率而已。
寻找从各种来源提取数据并理解它们之间的关系,也就是数据的相关性,这同样是统计学带给我们的。我们通过各种来源提取数据并在理解其关系中获得认识,从而明确前进的方向。这种寻找数据关联的方法,让现代技术变得特别有操作性,甚至形成了机器的智能,这从另外一个方面体现了大数据的力量。但在谈论这个问题的时候,一个绕不开的话题,是相关关系与因果关系的问题。因果关系,是指一件事儿的发生必定会导致另一件事儿的发生。比如,夏天的太阳太热了,我就想吃冰淇淋,而且如果不注意防晒,还可能被晒伤,这两件事都与太阳有关。而相关性,是指一件事儿发生的同时,另一件事儿也经常伴随发生。比如,在我们想吃冰淇淋的季节,也是最容易晒伤的季节,但我们显然不能说,因为想吃冰淇淋,所以就晒伤了。就这样的事儿,虽然我不能得出因果关系,但仍然找到了非常有用的信息:在吃冰激凌的季节,要注意防范晒伤。这样的认识对我们来说,显然也是非常有意义的。而计算机恰好在处理相关关系中有着超凡的能力,所以我们在大数据处理中,就首先将注意力放在关注相关关系上,能让许多问题变得简单。比如,我们发现,养狗的人得抑郁症人相对要少,那么我们就可以先不用寻找二者之间是否有因果关系,直接将这样的认识进行应用:对于情绪低落的人,鼓励他们养狗。至于其中的因果关系,可以再慢慢研究。
在大数据中,随着全数据的获得,由此也带来了另外一个问题,那就是数据的混杂项。数据量的大幅增加,会造成结果的不准确。一些错误的数据,也可能混进数据库。从另一个方面讲,大数据因为更强调数据的完整性和混杂性,可帮助我们进一步接近事物的真相。如果我们过度关注精确性,就会将视野局限在那些可以分析和能够确定的数据上,缺乏从不同角度来观察事物,对事物的整体理解也就会出现偏差甚至错误。所以,大数据最本质的东西是什么?我觉得应该是“混杂”。只有混杂,才能得出更精确,更真实的数据。而往往系统化、纯净的数据呢,更具有欺骗性,更容易造假。混杂的,来自多源的、多维的数据,从不同角度和状态看同一个问题,反而减少了这种风险。打个比方,比如我们射箭的时候,大多的箭都不会像这样射到靶心的,如果不是专业选手,应该更接近这样的情况。但是,要注意到,虽然所有的箭都没有射到靶心,但根据这些箭的综合趋势,我们知道其目标应该就是在靶心的。每一箭都是混杂的,不精确的,但他们的集中趋势却是准确的。而且还让我们认识到,重力和风向影响我们击中目标,而不是必然会射到中心。
这一条,其实就涉及到从小数据到大数据思维转换中,有关精确性与混杂性的问题。在数据量不断增加的新情况下,允许不精确的出现已经成为一个新亮点,而非缺点。在放松容错标准的前提下,我们就获得了更多的数据,正如我刚才所讲的,反而可以利用这些数据做更多新的事情。这就不仅仅是大量数据优于少量数据那么简单了,而是大量数据增加了观测事物的维度。这里面包含了更多的数据,而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。比如,我们现在只有一个用于某种测试的仪器,那么我们就必须确保这个仪器是精确的,而且一直能够工作,万一它罢工了呢。另外,更多的数据,将意味着单条记录不是那么重要,即使有偶尔有错误的数据出现,但在数据洪流中已经被淹没了,其集中趋势是精确的。更重要的是,可观察到一些原本可能被错过的变化,也就是我们事先没有考虑过的场景。观察到了这样的数据,也许是未来进行一个新探索的起点。
有关大数据的主要特征呢,我们就简单介绍这么多。下面几节要介绍的大数据在生态学中的应用,都会涉及到这几个特征。好,同学们,这一节的课呢就到这里,再见。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
计量方法导致失真的社科研究, 谁之过
大数据之大不能只靠科学家
大数据与大数据经济学(精选)
统计智慧
数学和统计学家怎么看因果推断方法的? 看这篇综述就够了!
你不可不知的20项...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服