【图文课件】04-7-1 大数据时代的生态学：大数据与数据科学

《生态学：管理大自然的经济学》

Ecology: The Economy of Managing Nature

复旦大学生命科学学院赵斌教授在中国大学MOOC网站上倾心打造的《生态学：管理大自然的经济学》。关注本公众号，可在第一时间获得课程的同步更新。

☟扫码可进入中国大学慕课课程☟

最朴素的风格，最真挚的DIY课程

我记得数年前，在向别人介绍大数据的时候，我都需要花费很长的时间进行介绍，别人听了也是半懂不懂的，因为那个时候案例并不丰富。而现在，一说到大数据，几乎人人都知道在说什么。所以，我今天来给大家介绍大数据的时候，就比较简单了，只需要稍微强调一些从大数据应用来看值得关注的地方就可以了。

为了便以大家理解，也不至于让一个慕课的内容太长，所以我将这个主题分成了四个小节。大数据概念的产生及其应用，让数据科学这个词也变得炙手可热了。所以，我首先要讲的主题，就把二者联系起来：大数据与数据科学。

要列举大数据的特征，最有代表性的就是我们常说的几个V。这就是典型的三个V的模型，其中Volume，是指数据量大，这个大的数据量反映在采集、存储和计算的各个环节。第二个V，是Variety，可以翻译成多样化，不仅指种类和来源多样，而且数据类型也是多样的，有结构化的、半结构化的和非结构化的数据，比如来自网络博客和网页的，还有记录的音频、视频和图片信息，甚至还有针对这些数据的地理位置等，这么繁杂的数据类型，对数据的处理能力提出了非常高的要求。第三个V，Velocity，是指速度，包括两个方面，一个是数据增长速度，一个是数据处理速度，二者都很快，时效性要求也很高。比如我们在网上常用的搜索引擎，虽然数据量巨大，但我们仍然需要在很短的时间内获得查询的结果，而且还要求几分钟前发生的新闻都能查询到，个性化推荐还很准确，这是大数据区别于传统数据挖掘最显著的特征。

三个V，有人认为不够，应该是4个V。与三个V相比，增加了Veracity，是指数据的准确性和可信度，也就是数据的质量问题。这是显而易见的，如果一堆数据，全部是垃圾数据，还不如没有。正如我们常说的，Baddataisworsethannodata。

更有人认为大数据模型应该是5个V，大数据是应该有价值的。为什么特别提出这一点呢？与传统的数据相比，大数据的数据价值密度相对较低，我们在大数据中是浪里淘沙，但这又是弥足珍贵的。所以，如何结合具体的应用逻辑，并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。也有人将前三个V和第四个V进行了重新排列，认为它们的关系应该是这样的。也就是说，要让大数据能创造价值，那就不得不注意数据的真实性。

当然，还有更多V的说法。比如，这个说法增加了可视化与病毒式扩展两个特点。还有这个，又增加了三个带V的单词，虽然有一定的道理，但并不是核心特征。其实，不论是几V，大数据的数据特质，与传统数据最大的不同，是数据多元、种类繁多，而且大多是非结构化的数据，更新速度又非常快，导致数据量大增。我得提醒大家注意的是，最前面介绍的三个V：体量、多样性和速度，是大数据缺一不可的。大家也许认为这非常容易理解，不过，在实际应用，有不少人认为只要数据量足够大就行了，其实这是一种误解。大数据中的大，只是大数据的一个必要条件，并不是充分条件。比如，如果只是简单重复的数据，并不能算大数据，因为必须要保证多样，才能获得更多的特征；如果数据提取困难，无法保证处理速度，至少在目前不能算是大数据，也许是未来的大数据。最麻烦的是，对于这个大的解读，不同学科还不同。

比如，对于IT行业的人来说，大数据对于他们的挑战是真正的海量数据，当大规模计算的数据量超过1PB时，我们传统的存储子系统已经难以满足海量数据处理的读写需要，数据传输的I/O带宽的瓶颈就愈发突出的。我们来做一个简单的计算吧，如果我们要将1PB的数据按照1G/s的网络速度从北京传输到上海，这个网络速度已经够快了吧，那么一个小时也就是3600个G，要把1PB的数据通过网络传输过来，就需要大约300个小时。显然，这还不如将数据存放在硬盘中用高铁运输过来。这就是一个非常巨大的传输瓶颈，是IT行业的人最关注的，这是他们理解的大数据。而且，对于数据密集型计算的需求，是不能将数据进行分块处理的，因为这样就与大数据分析的初衷相违背了。因此在他们看来，最大的问题，不是缺少数据，而是面对太多的数据，却不知道如何处理，超级计算机、计算集群、超级分布式数据库、基于互联网的云计算，似乎并没有解决这些矛盾的核心问题。他们认为计算机科学期待新的革命，就是体现在这方面。显然，他们最看重的是“大”和“速度”，而对于我们大多数应用来说，我们并不一定有这么大的数据，所以我们更看重的是数据多样而有效，如果再有些丰富的功能就更好了。这也就是为什么会出现如此多版本的V。除了这个用几个V进行的解读，舍恩伯格的《大数据时代》一书，对大数据的解读更有实践意义。

《大数据时代》一书，明确提出了大数据时代的重大转变，我认为这就不仅仅是技术的问题了，而是一种思维方式，所以我喜欢称之为“大数据思维”，并特别赞同这本书所突出的三个特点。第一个是：利用全体数据，而不是仅仅依靠少量的数据样本；二是，关注相关关系，而不先探求难以捉摸的因果联系；三、重视混杂数据，而不是刻意追求狭隘的精确数据。为什么这么说呢？我们来逐个分析一下。

对于我们大多数人来说，我们已经形成了一种习惯，不管是我们的制度，还是各种激励机制，对于数据收集和处理，我们都希望尽可能地减少对更多数据的需求，能用少量数据完成的，我们绝对不考虑用更多的数据。我们甚至开发了一些利用尽可能少的信息来进行处理的技术，比如统计学的一个目的，就是用尽可能少的数据来证实尽可能重大的发现。如果我们总是假定自己只能收集到少量信息，那结果可能也就真的如此了。但是，我们现在已经进入了一个新的世界，在这里，几乎人人都拥有能收集和处理更大规模数据的能力。虽然获取全体数据，在大多数情况下都还是一个假设的理想条件，但随着我们获取数据的能力变得越来越强大，其实我们也正在逐步逼近全体数据，更多的测量意味着更全的数据。在许多方面，我们之前在信息匮乏的假设下做很多事情，也就是传统统计学中根据采样所进行的估计，这种小数据思维模式，是在缺少数据的条件下不得已而为之的权宜之计，并非最完美的途径。所以，大数据带来的第一个思维上的改变，是利用全体数据。当然，统计学也从未标榜其精确性，因为统计学获得的是对集中趋势或总体趋势的认识，每个个体分享其概率而已。

寻找从各种来源提取数据并理解它们之间的关系，也就是数据的相关性，这同样是统计学带给我们的。我们通过各种来源提取数据并在理解其关系中获得认识，从而明确前进的方向。这种寻找数据关联的方法，让现代技术变得特别有操作性，甚至形成了机器的智能，这从另外一个方面体现了大数据的力量。但在谈论这个问题的时候，一个绕不开的话题，是相关关系与因果关系的问题。因果关系，是指一件事儿的发生必定会导致另一件事儿的发生。比如，夏天的太阳太热了，我就想吃冰淇淋，而且如果不注意防晒，还可能被晒伤，这两件事都与太阳有关。而相关性，是指一件事儿发生的同时，另一件事儿也经常伴随发生。比如，在我们想吃冰淇淋的季节，也是最容易晒伤的季节，但我们显然不能说，因为想吃冰淇淋，所以就晒伤了。就这样的事儿，虽然我们不能得出因果关系，但仍然找到了非常有用的信息：在吃冰激凌的季节，要注意防范晒伤。这样的认识对我们来说，显然也是非常有意义的。而计算机恰好在处理相关关系中有着超凡的能力，所以我们在大数据处理中，就首先将注意力放在关注相关关系上，能让许多问题变得简单。比如，我们发现，养狗的人得抑郁症人相对要少，那么我们就可以先不用寻找二者之间是否有因果关系，直接将这样的认识进行应用：对于情绪低落的人，鼓励他们养狗。至于其中的因果关系，可以再慢慢研究。

在大数据中，随着全数据的获得，由此也带来了另外一个问题，那就是数据的混杂项。数据量的大幅增加，会造成结果的不准确。一些错误的数据，也可能混进数据库。从另一个方面讲，大数据因为更强调数据的完整性和混杂性，可帮助我们进一步接近事物的真相。如果我们过度关注精确性，就会将视野局限在那些可以分析和能够确定的数据上，缺乏从不同角度来观察事物，对事物的整体理解也就会出现偏差甚至错误。所以，大数据最本质的东西是什么？我觉得应该是“混杂”。只有混杂，才能得出更精确，更真实的数据。而往往系统化、纯净的数据呢，更具有欺骗性，更容易造假。混杂的，来自多源的、多维的数据，从不同角度和状态看同一个问题，反而减少了这种风险。打个比方，比如我们射箭的时候，大多的箭都不会像这样射到靶心的，如果不是专业选手，应该更接近这样的情况。但是，要注意到，虽然所有的箭都没有射到靶心，但根据这些箭的综合趋势，我们知道其目标应该就是在靶心的。每一箭都是混杂的，不精确的，但他们的集中趋势却是准确的。而且还让我们认识到，重力和风向影响我们击中目标，而不是必然会射到中心。

这一条，其实就涉及到从小数据到大数据思维转换中，有关精确性与混杂性的问题。在数据量不断增加的新情况下，允许不精确的出现已经成为一个新亮点，而非缺点。在放松容错标准的前提下，我们就获得了更多的数据，正如我刚才所讲的，反而可以利用这些数据做更多新的事情。这就不仅仅是大量数据优于少量数据那么简单了，而是大量数据增加了观测事物的维度。这里面包含了更多的数据，而它提供的价值不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。比如，我们现在只有一个用于某种测试的仪器，那么我们就必须确保这个仪器是精确的，而且一直能够工作，万一它罢工了呢。另外，更多的数据，将意味着单条记录不是那么重要，即使有偶尔有错误的数据出现，但在数据洪流中已经被淹没了，其集中趋势是精确的。更重要的是，可观察到一些原本可能被错过的变化，也就是我们事先没有考虑过的场景。观察到了这样的数据，也许是未来进行一个新探索的起点。

有关大数据的主要特征呢，我们就简单介绍这么多。下面几节要介绍的大数据在生态学中的应用，都会涉及到这几个特征。好，同学们，这一节的课呢就到这里，再见。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。