【大数据微课回顾】佘伟：领域大数据科学家，抽象与聚焦的完美结合

佘伟

明略数据技术合伙人

兼研究院执行院长

今天的题目是领域大数据科学家——抽象与聚焦的完美结合。今天的topic将分为3个部分，第一部分是领域大数据科学家的介绍，第二部分是明略的DataInsight产品实现大数据挖掘的抽象，第三部分是明略在具体领域中的一些应用。

首先，我们来看第一个话题，领域大数据科学家。在介绍这个话题之前，我们先来思考一个问题：为什么我们需要领域大数据科学家。

大家都知道，我们现在进入了大数据时代。大数据时代最突出的特点是数据膨胀。据预测，全球的数据量将会从2013年的4.4ZB膨胀到2020年的44ZB。可见，数据规模是以一个非常快的速度不断增长的。

大数据不仅仅体现在数据量的膨胀之上，当数据变多时，随之而来的是数据的类型也不断增加。在传统的数据库中，往往只有结构化数据，数据都非常的规整。但是到了大数据时代，各种类型的数据层出不穷，例如文本数据，图片数据，音频数据，视频数据，甚至还有传感器数据。这些都是一些非结构化的数据。数据类型的增多导致数据之间关系变得非常复杂。

大家都知道，两个点之间只存在一条边，3个点之间就有了3条边，而4个点之间就有了6条边。边的增加是点的n^2级别，所以当数据类型增多之后，数据之间的关系也会越来越复杂。

数据量的膨胀和数据类型的增多对大数据技术提出了非常高的要求，但是同时也带来了新的机遇，我们可以从这么丰富的数据中去挖掘更多的价值，催生了新的业务。我们现在的业务已经从传统的统计分析，报表展现变成了对个体进行分析，对未来进行预测等新型的应用。

好，既然有了这么多的数据，这么复杂的数据关系，我们就需要有大数据处理技术。从2006年Hadoop诞生，或者更早一些的Google三驾马车的提出，大数据的处理技术的发展已经超过10年了。目前的大数据处理技术已经进入到了一个相对成熟的阶段，我们已经能够非常好的对数据进行整合、存储、计算、查询和管理，相当多的企业已经构建了大数据平台。

但是，有了大数据处理技术就够了吗？显然是不够的。新的业务需要新的分析手段，我们必须对大数据进行深度挖掘，才能真正的从大数据中挖掘出对业务有帮助的价值。

在大数据时代，数据挖掘是挖掘大数据挖掘的有利武器。但是由于环境的变化，小数据时代的数据挖掘不一定适用于在大数据时代，所以我们就必须去研究大数据时代的数据挖掘技术。例如并行化、分布式数据挖掘技术。

最近科技界最火的事情莫过于AlphaGO和李世石的围棋大战，最后机器人4：1获胜。在AlphaGO中，大量使用了深度学习算法。我们坚信，深度学习算法是未来大数据挖掘的方向，所以明略也在投入力量加大这方面的研究工作。

此外，大数据上的可视化技术也是我们需要深入研究的，如何将数据更好的展现出来，特别是将具有复杂关系的海量数据直观的呈现出来，这是大数据挖掘需要考虑的另外一个话题。

所以，我们需要大数据科学家，只有大数据科学家才能非常好的帮助企业真正从数据中挖掘价值。那么，什么是大数据科学家呢。我们先来看一幅图。

首先，我们的大数据科学家必须有大数据的处理能力，这是和传统的数据挖掘人员有很大不同的。对于传统的数据挖掘人员，他们的数据源往往都非常单一，而且数据比较规整，数据质量很高，在这种情况下，只需要对数据简单数据即可。而大数据时代下，数据量是海量的，数据源是众多的，数据质量是非常低的，因此，大数据科学家的首要任务是对大数据进行处理，得到能够用来进行建模的数据。

其次，大数据科学家必须有非常强的数据挖掘能力，这要求他们有计算机、统计、机器学习、数学等方面的知识，并且有着非常丰富的实践经验。只有这样，才能应用大数据挖掘能力去建立模型，帮助企业实现大数据真正的落地。

有了大数据处理能力和大数据挖掘能力就是一位合格的大数据科学家了吗？并不是这样。大数据科学家还需要的一项素质是领域业务知识。他们必须熟悉领域，数据业务，这样才能有的放矢，真正的帮助客户实现数据挖掘。

非常幸运，明略有着这样一批大数据科学家。我们有多个开源社区的Contributor和Committer，我们有丰富的数据挖掘经验，我们的数据科学家应用大数据技术和数据挖掘技术，结合客户的业务和数据，建立模型，帮助用户真正的从大数据中挖掘出价值。大数据的核心在于挖掘大数据中的价值，而大数据科学家正是去挖掘价值的人，因此在大数据时代，大数据科学家的重要性不言而喻。

工欲善其事必先利其器，要真正的将大数据挖掘落地，我们就必须有良好的工具来支撑。明略大数据挖掘平台DataInsight正是一款基于大数据的数据挖掘平台。

在介绍DataInsight之前，我们先来看看在企业中数据挖掘都是怎么做的，以及有着哪些问题。

左边这个图是1999年提出的《跨行业数据挖掘标准流程》，在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了，但是在大数据环境下，这个流程依然适用。

数据挖掘的第一步是理解商业问题，这需要大数据科学家和行业专业，以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做，最后的项目一定是失败的。

当明确了业务问题之后，我们就需要去分析数据，看看到底哪些数据能够支撑我们的业务，用哪些数据去解决问题。在这个阶段，我们可能发现数据不足，或者数据质量太差，这个时候就可能要寻求第三方数据的帮助，或者规划如何去采集更多的数据了。

前两步都是在做数据挖掘前的准备，当业务明确，数据可用时，我们就正式开始数据挖掘了。

首先我们要对数据进行处理，从数据中提取特征。这是数据挖掘非常关键的一步，特征的好坏直接影响最终模型的效果。在数据挖掘过程中，算法其实并不是最主要的因素，影响效果最直接的因素就是特征。

良好的特征需要有非常好的区分度，只有这些特征，才能很好的去解决问题。举个例子，我们要辨别一个西瓜是好是坏，可能颜色是一个特征，条纹，重量，瓜蒂也是特征。但是，大家都知道西瓜一般都是绿色的，所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹，重量，瓜蒂是判别一个西瓜是好是坏非常重要的因素，因此他们是好特征。

我们在解决不同问题时，所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此，我们必须紧密的联系业务，去选择合适的特征。

在提取特征时，因为我们是大数据挖掘，所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。

当特征提取完毕后，我们就需要去应用算法建立模型了。在实际的建模过程中，由于数据量过于庞大，算法训练过程往往十分缓慢，如何加速算法计算速度，是一个非常突出的问题。

此外，由于传统的数据挖掘算法都是针对小数据集的，当数据规模到了一台服务器无法处理的程度，传统的数据挖掘算法就不再适用。此时，我们需要有新的数据挖掘技术来支持大数据上的数据挖掘。

当模型建立完成之后，我们需要对模型进行评估，来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时，我们要回到特征提取，建模过程来不断的迭代，甚至可能要重新分析业务和数据。

当一个效果非常好的模型建立完毕了，我们的数据挖掘就结束了吗？传统的数据挖掘软件往往只做到模型建立这一步，但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来，如何去管理、运行、维护、扩展模型。

DataInsight是一款覆盖了建模整个生命周期的产品，他不但可以供数据科学家建立模型，同时还是一个良好的模型管理、运行、维护、扩展的平台，能非常好的和企业其他生产系统进行对接，加速大数据挖掘落地过程。

我们先来看看DataInsight对业务的支持。

可以将DataInsight看做一个模型运行的平台。他提供一套分布式的模型执行引擎。所有通过DataInsight建立的模型都可以在这个分布式执行引擎中运行。

在执行引擎之上，DataInsight还提供了多个系统供不同业务使用。我们有支持实时分析业务的实时分析系统，有支持离线批处理业务的离线分析系统，还有规则引擎系统，可以让用户的业务人员去通过规则对模型进行修正。

用户需要针对不同的业务去建立不同的模型，这个建模过程可以由用户自己完成，也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去，方便模型的管理和扩展。

用户的业务系统会通过API和DataInsight进行通信，来运行或者更新DataInsight中插入的模型。

一个典型的DataInsight模型运行过程如下：用户通过API调用DataInsight，在请求中指定模型，模型的输入和模型的输出。DataInsight会将数据从数据源中取出，送入模型，并且将模型分成多个步骤，并行化的在分布式执行引擎中运行。当模型运行完毕后，结果将送入用户指定的目的数据库中。这样，用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。

DataInsight中将解决客户业务问题的模型成为业务模型，或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。

上图是一个文本分类的业务模型，其解决的问题是将若干文本进行分类。例如我们有很多文章，我们要对每篇文章的情感进行分类，就可以使用这个模型。

我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换，将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理，也可能是某种机器学习算法。

每个算子都有输入和输出，且算子的输出可以作为另外一个算子的输入。这样，整个业务模型就抽象成了一个有向无环图（DAG）。DataInsight在执行模型时，会去调度模型中的每个算子，将适合分布式计算的算子送入不同的执行容器中去运行，加速了整个模型的计算速度。

DataInsight支持非常灵活的算法开发和扩展。DataInsight支持多种语言去开发算法。

目前支持Scala，Java，Python，R去开发新的算法。在算法开发完毕后，必须将算法进行封装，需要定义算法的输入、输出和算法参数，这样在DataInsight中可以直接在模型编辑器中可视化的使用算法。DataInsight是一个混合型的计算架构。具体计算框架见下图。

我们以Spark为核心运行平台，所有的任务的调度都通过Spark来执行。充分发挥Spark内存迭代计算的优势，来对数据进行处理。DataInsight支持Spark SQL，并且可以直接使用Spark的Mllib库来进行数据挖掘。

但是，Spark中的并行算法是有限的，而且为了分布式计算，Spark中的算法简化了很多功能。例如经典的SVM算法，Spark只实现了线性核，并没有实现高斯核、多项式核等非线性核。所以在实际工作中，光有Spark算法是不够的。

我们将Python、R的支持加入到了DataInsight中。用户可以直接使用Python和R中大量的经典算法来解决实际问题。所以，DataInsight是基于Spark，但是又不是纯粹Spark的这样一种混合式计算框架。

我们还引入了其他的算法框架来更好的支持数据挖掘。除了Spark之外，我们还引入了MPI、Google TensorFlow以及Parameter Server来运行算法。但是，算子之间的数据通信最终还是通过Spark的DataFrame来进行通信的。

由于深度学习的兴起，GPU计算越来越流行。我们在DataInsight中还加入了GPU的支持。GPU的计算速度是CPU的1000倍左右，因此使用GPU可以大大的加速建模过程，将原来可能需要1天的训练时间缩短为10分钟。

DataInsight中除了支持在GPU上的深度学习算法之外，还将大量的传统算法使用GPU加速，充分发挥了GPU的计算能力。目前，DataInsight正在尝试软硬件一体的销售方式，省却了用户对GPU硬件选型的问题。

DataInsight总体的体系架构见下图：

明略的大数据科学家使用DataInsight，已经将大数据挖掘在多个行业进行了实际的应用，并且取得了良好的效果。下面我们介绍一下明略在各个领域中的一些案例。由于时间关系，我这里只举两个案例。

一是精准营销方面。明略是从秒针系统拆分出来的，秒针系统是一家以互联网精准营销为主要业务的公司，因此明略在精准营销方面有着接近10年的积累。

明略的精准营销方案已经服务于多个行业，例如电商、旅游、新闻、汽车、教育、房地产等等。在这些领域中，明略的精准营销方案都取得了不错的效果。

上图是明略精准营销解决方案整体架构图。

首先，明略的大数据平台MDP会将企业各种自有数据，包括CRM数据、交易行为数据以及官网数据等，和第三方数据一起收集起来，并对这些数据进行关联和打通，一起存储到大数据平台MDP中去。

我们针对企业不同的业务，建立多个模型，例如智能推荐模型，用户画像模型，消费预测模型，商圈聚类模型等等，这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。

我们可以将原始数据从MDP中取出，进过DataInsight中模型的计算之后，生成最终的结果数据，结果数据将送入用户画像系统和推荐系统的离线部分。

用户的推荐系统分为在线和离线两个部分，离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求，通过客户画像系统和离线推荐结果，并结合当时的一些场景，共同计算出最终向用户推荐的物品。

明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域，并取得了良好的效果。

下面我给大家介绍一个智能推荐算法。和传统的协同过滤算法不一样，这个算法是采用了分类的思想，通过分类的方法来实现推荐的。

首先，在进行推荐之前，我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品，也可以是广告，甚至是文章、电影、音乐等等。

然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库，用户CRM数据库，以及用户行为数据。

解决了目标和数据之后，我们就需要采集一批有标注的样本。因为是采用的分类算法，这是有监督的算法，所以标注样本是建模的第一步工作。标注就是通过人工或机器来判定用户是否对某个物品感兴趣。

标注问题解决后，我们就需要从数据中提取特征。我们的特征分为3类：物品自身属性，比如我们推荐的是手机，手机型号，手机价格，手机颜色都是物品的自身属性。其次，我们要提取人的属性，比如人的性别、年龄、收入、教育程度一类。最后，我们还需要知道人和物品的交互关系，他是浏览过商品还是加入过购物车，还是点击过商品，甚至购买过该商品。除了和推荐的商品之间的关系之外，我们还可以将用户和其他商品之间的关系也作为特征。

这样，我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试，诸如GBDT，逻辑回归，SVM等等。

当模型建立完毕之后，我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣，以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序，最后选出TopK个结果作为最终结果返回。

我们的第二个案例是有关设备诊断方案的。

我们知道，工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。

设备诊断又分为故障诊断和故障预测两大类。故障诊断是当一个设备出现故障，我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题，但是处理的方法是类似的。

故障诊断和故障预测已经在多个行业中得到应用，并且已经取得了非常突出的效果。

明略的故障诊断方案如下图：

首先，各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据，设备历史数据，时间历史数据等等。

然后，在DataInsight中建立故障诊断和故障预测模型，来对原始的数据进行分析，并得到诊断和预测结果。

DataInsight中的模型会部署到生产系统中去，通过API和故障诊断和故障预测应用进行交互，提供最终的分析结果给到应用，在应用中根据分析结果进行各种统计和可视化的展现。

进行故障诊断和故障预测建模有两种方式，其一是传统的方式，其二是通过深度学习的方式。

上图是我们通过传统方式来进行故障诊断和故障预测的示意图。

在这个过程中首先我们要对故障进行标注。对于故障诊断，我们要标注的是何种类型的故障，对于故障预测，我们要标注的是有没有发生故障。标注的工作是专业性极强的工作，一般需要用户的专家来进行标注。

对于传统方法而言，最复杂的部分是特征选取。上文我们也讲到，只有那些有强区分度的特征才能有效的支持最终的模型。所以，需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化，将人的知识变为机器能够处理的方法。这是非常困难的。

当特征提取完了之后，我们会采用分类算法来训练模型，最终得到故障诊断和故障预测的结果。

在传统方法之外，我们还可以通过深度学习的方法来进行故障的诊断和预测，深度学习方法示意图如下：

相比起传统的方法，故障标注这一步是省不掉的，因为我们用的还是一个有监督的方法，这个方法必须要有一批标注好的样本。

和传统方法不一样的是，我们直接将样本送入深度学习算法，常用的如卷积神经网络去进行训练，来得到最终的故障诊断和预测的结果。

相比传统方法，深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习，省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道，或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型，其效果往往好于传统方法的模型。

但是，深度学习算法对数据量的要求非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。

以上就是本次微课的分享。

下面，挖掘机就把这次分享中，最精髓的问题给大家罗列一下！

>>>>

能将一下Scopa吗？想知道它的图存储和图检索相关的内容。

Scopa是我们的一个图挖掘图计算的平台。今天的时间有些仓促，今后我们会给大家专门做一次Scopa的分享。也请大家继续关注我们的微课！

>>>>

那DataInsight是如何做模型管理的呢？

所有的模型在DataInsight中都是以DAG的形式进行存储，DataInsight负责管理模型的元信息，用户可以通过任意的语言开发模型中的算子，DAG就是将这些算子串起来的。DAG是DataInsight内部进行管理的，基本是基于Spark的。我们在DataInsight中自己做了一套任务管理，类似oozie。这是一套可视化的系统。

>>>>

那推荐算法feature怎么映射到spark mllib的分类算法？

spark mllib我们作为DataInsight的一个算子来运行的，我们对mllib做了一定的封装。mllib只是我们一部分算法，里面有些算法我们重写了，另外还加了一些算法。

>>>>

请问老师，有用什么nosql吗？

nosql是作为数据源来使用的。如果你说hbase是nosql的话，数据etl后有一些是存在hbase中的。还有分析结果：分析结果分两类，第一类是数据，第二类是报表。数据是直接落到用户指定的数据库中的。报表我们采用了另外的地方去存储。

>>>>DAG在运行过程中每个算子的结果是落地还是直接让rdd在算子间传递？

这个是rdd传递。

>>>>

具体说说设备故障诊断这块应用，如果用传统方法，这个特征提取，是指把不同时间颗粒度的数据都统一到一个颗粒度，还是都用特征量代替？

特征提取就是把业务专家的经验转化为程序表达。比如，业务专家的经验说，如果某个传感器的值超过某个阈值了，会发生故障，我们就会在特征向量的一个维度中用1代表超过阈值，0代表没超过。所以传统方法特征很难提全。

>>>>

经验一般是不是些阈值？

是的，所以特征提取非常难，必须要把专家脑子里的经验取出来。刚才说的阈值只是很简单的部分。还有波形，这个也是一个非常重要的特征。就像股票k线图一样，各种指标。这些都可以作为特征。

>>>>

一般来说传感器的采集量是否可以看做时间序列？

是的，是时间序列。

>>>>

业务人员不懂算法和建模，他们怎么用产品的呢？

我们的客户有两类，一类是自己有建模能力，一类是纯粹的业务。第一类DataInsight更多是一个建模工具，第二类需要我们的大数据科学家去帮助他们建模，建完的模型通过DataInsight去管理、执行。

>>>>

怎么解决客户具体业务呢？

这个就需要我们大数据科学家了啊。我们和客户先碰业务，了解了业务之后碰数据，然后去建模。有行业专家一起参与。

>>>>

提到客户推荐里面有数据融合，比较好奇，第三方数据如何和企业数据融合？我看例子，貌似是运营商数据。

有很多种，最简单的是key的融合，比如手机号，身份证号，卡号一类的

另外有很多研究，有很多算法可以来做这个融合。最后给用户的肯定是融合了多种算法的最终结果。

>>>>

老师你们有用kylin 做cube么？

kylin在我们另外一款产品里面用到。我们有kylin社区的contributor和Commiter。

>>>>

做olap是klyin好还是Druid？

我们目前选择的路线是kylin。明略有一个BU叫数据互联BU，就是做第三方数据的事情。

>>>>

老师，基于分类的推荐，相比协同过滤和关联规则。有哪些优点呢？

协同过滤是基于相似性的算法，关联规则是一个频繁项的一个算法，和分类的原理完全不同。我们在实际的工作中几种算法都会用。另外推荐中冷启动问题是非常大的问题。基于统计的方法能有效的解决这个问题。

>>>>

老师能否指点下实践中一般如何抉择。

在做一个实际问题的时候往往是多种算法一起尝试，然后挑出效果好的。

并且可以用多种算法去做，最后进行融合。实际工作中，融合的效果比单一算法要好很多。

>>>>

是不是在用深度学习算法时，提取或者说找到了新的特征？

是的。深度学习本身就是一个黑盒子，你把原始数据给他，他自己去拟合，那就是完全依赖于数据。所以深度学习的数据量要非常大。

>>>>

深度学习也会存在过度拟合吧？

当然会。

>>>>

输入100个维度，模型自己找出特征？

这个数据量还不是原始数据，是有标注的数据

>>>>

这个产品的极限是多少数据量

我们目前数据量在几十个T。再多没有在客户现场使用过。这个数据量还不是原始数据，是有标注的数据。那这个数据量在什么量级呢？大概是几十万条以上。

>>>>

那新的实时数据区更新模型怎么做呢？

实时更新吗？那就是在线学习了，目前我们还没有提供这个功能。

>>>>

请问datainsight对于ensemble learning支持如何？如bagging和boosting。

这些需要自己用程序实现。比如你可以用现有的python包去写个算子，然后放到DataInsight里面去跑。DataInsight有对每个算法的一些通用的指标，比如precision，recall，F1 Score。DataInsight在模型建立完了之后提供在线模型更新的功能。可以用新的数据去重训练。不过这个只是一个治标的办法。等时间足够长了，可能重训练也不能解决问题，这个时候可能要重新调整模型。

>>>>

k-means做在线效率高吗？

这个真没调研过。一般我们做的都是离线训练，在线预测。另外，训练数据从哪儿来并不重要。

>>>>

明略有做用户画像吗？

这个是企业普遍的需求。我们的画像数据通常推荐存在hbas。画像狭义上基本就是人口、兴趣一类的。广义上，所有分类问题都是画像。

>>>>

金融行业里客户的需求一般都是哪些，比如征信什么的。

这个是有的。

>>>>

所有类型的数据都在hbase？

我是说结构化数据。几个数据库都会用：hive，spark sql，impala都能比较好的处理hive。ETL我们自己在开发，能对接Oracle，mysql，db2。

>>>>

有试过Cassandra？sqoop？

Cassandra我们用的不多。

>>>>

非增量数据有更新，怎么处理？

我们在MDP中有个组件能做实施增量同步。一般在HIVE里面是一张大宽表。增量时基本不会影响主库性能。全量肯定会。

>>>>

R程序是怎么在平台上运行的？

sparkR封装。

>>>>

flume做的日志收集么

对的。

>>>>

明略有自己的数据中心么

明略自己没有数据，但是秒针有。我们是大数据服务公司，自身并不产生数据。我们有数据互联事业部就是为客户解决第三方数据这个问题的。大数据不是万能的。所以我们必须要将合适的技术用到合适的事情上。我们在做DataInsight的时候，开始觉得spark就够了。说实在的，大数据目前的东西都是一帮技术男搞出来的，最终用户的易用性还真不强。

以上就是本次分享问答的全部内容

由超认真的挖掘机整理发布

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。