打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据的价值——岂止于大

管 理 智 慧

包政先生团队运营,商业管理类第一自媒体

 

推荐人

王嘎,河南蓝天药业有限公司董事长。公司业务:专注于儿科,服务于儿童,以呵护儿童健康为使命,沥心铸造儿童健康产业第一品牌。

导读

许多组织使用大数据和分析,以了解他们的客户来提供更好的服务。但大数据并不单单只是“大”,把数据用好,你会发现其中有更多值得挖掘的潜在的价值与意义!


文/单艺


以下为单艺演讲全文:


今天我来做开场演讲,主题是“大数据的价值,岂止于大”,这个是有原因的。最近我跟我们团队到地方政府谈一个项目,地方政府派出一个专家小组与我们见面,当时问到:“你们谈大数据,是不是就是大,但是它不准确?”当时把我愣住了,因为我觉得大数据这个名词出来也有两三年了,那位评审专家看样子是一位教授,还问这样的问题,确实让我觉得吃惊。其实社会上对大数据的价值认知还是不足,所以我就想花十分钟的时间讲讲我的思考,希望给大家一些启发。



我们谈到大数据,是从互联网时代兴起以后,IBM的科学家总结了大数据的四个V,第一个是Volume,数量很大。从我们最早的时候,我开始学计算机时存储容量的单位是KB,然后MB,再后来GB,到现在变成了TB。


第二个是Velocity,高速。我们接受信息,接受数据的速度大大高于以前,比如像品友的沈总做DSP,每秒要响应数十万次的请求,都是很常见的情形。


第三就是Variety,多样性。就是我们的数据已经比较变得很丰富,从简单的文字数值到多媒体的各种形式,再加上最近,比如快的做的很多跟地理位置GPS数据都会收集进来,就比以前丰富了很多。


最后一点Veracity,真实性。因为我们可以收集大量的数据,这里面就是数据的真实性是比以前要高很多。当然,与此同时也会有噪音,所以在这种情形下,我们有这么多数据能干什么,这是一个核心的问题,否则你就可能会像图片里面的先生茫然不知所措不知道怎么用这个数据。



我们大数据做的主要的工作其实并不是说我们只是比较数据的大小,并不是比size有多大,而是怎么用,这一点是大数据应用中需要大家去思考去挖掘的方面。



从我自己的工作经历来讲,我觉得如果我们是一个做大数据的企业或者个人,手上有很好的数据,那怎么来用,第一步是找到问题,这是最关键的,你根据你的业务、根据你真实的一些挑战,发现一个具有商业价值、具有社会意义的问题,这很重要。


因为我遇到过一些大数据从业者,他会提问说:“我觉得我的数据团队,感觉在公司里面不是那么受重视。”我觉得他们应该要去好好反思一下,因为你自己要知道,你最有价值的问题在哪里。



接下来你找到问题之后,我们要想办法把它量化,开始收集数据,就用度量的方法,各种技术手段,比较简单的是计数,也可以做一些指标。



下面我讲一个简单的例子,猎聘网站就很注重保护我们用户的信息安全和隐私,我们最近在查一件事情,是不是有一些猎头,他在恶意的下载我们的用户的简历。运营部门找到我说这个问题怎么办。第一步我们想先去分析一下,这些猎头他们在我们网站上的表现如何,我们有很多的数据,猎聘网每天会收集两千多万条用户数据,我们用户有一千七百万,在高峰时候我们可以做到五千万条,我们把数据收集以后进行评价,用一些定量的方法发现说哪些行为是属于正常范围内的,哪些是属于异常的,这里面就可以用到一些常用的统计方法,异常检验的方法。



做完这一步之后,我们就有一个比较科学的、基于数据的判断,接下来我们就可以做决策了。我们做了,比如拿到猎头的行为数据之后,我们就可以画出一条红线出来,当你达到这条红线的时候,我们会给你警告,再超过就会封你的帐户。通过这样的方式,我们是得到了一个科学的、有基于数据的保护用户隐私的方法,而不是拍脑袋。我们可以保证用户体验得到一个很好的效果。



其实你做完决策之后,我们还可以做得更深入一些。你做决策中会看到有一些方案好,有一些方案差,但是仍然可以把好的方案做得更好,做改良和调优的事情。你做深入的分析,看哪些环节我们仍然可以把它做得更上一层楼。



优化是属于改良的,其实我们现在有好多数据可以做扩展,可以去创新、做新的产品——基于数据的产品,甚至颠覆已有的产品。比如我听说美国有一家公司,他们通过分析社交媒体上用户评论的数据,来预测各个公司的销售它的股价的情况,这个完全颠覆了以前华尔街分析师的方法。原来他们要做很多现场的调研、自己的模型去预测行情,这家公司更多是通过线上的实时数据做快速的判断,另外像比较热的P2P风险金融的控制也是一个例子。



我在猎聘做了很多数据产品,里面有一个是我们做的相当长时间的招聘推荐。能够根据用户特征还有应聘的行为,推出合适你的职位,你不需要做什么事情,每天都可以给你推送过去。可以让用户能够很快的看到,有哪些职位会比较感兴趣。还有另外一个,是同事关系的推荐。猎聘有很多用户,他们其实工作之间是有交叉的,他们有可能是认识的人,希望可以把他们重新联系起来。我们做了一个模型,发现现在的数据里面已经具备了有五亿对儿的同事关系。之前尝试过通过简单的类似搜索引擎的匹配方式去做,可以达到一定效果,但不是太好。现在又研究了一个用概率模型来做、来算。就是根据公司的情况,你的行业,你们俩的交叉的时间,能够算出来你们两个或是任何两个人有多大概率以前是认识的,通过这个模型,我们把这个准确率一下子提高到了原来的五倍,同时这个计算方法是离线的,20分钟之内我们就可以把1700万关系用户全部算完。



所以总结一下就是说,你要把数据用好,可以用一个框架,第一步,先把你的问题量化,做好一个基础的工作就是度量。接下来就是进行一些评价,就是对比趋势分析,有这些你就可以做决策了,做完决策对好的方案你可以做的更好。进行局部的调优改良,再高一个层次就是创新和颠覆已有的模式,从层次的角度上来看,你往上面越走投入也越大,风险也会大。但是回报也高,所以这个时候,大家要判断一下这个事情到底值不值得做?


来源:猎聘网同道精英汇

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
人人都看得懂的电商用户画像
硅谷增长黑客实战笔记
“败走”中国的浪潮中,LinkedIn如何坚守与深耕? | 专访领英中国总裁陆坚
大数据时代:大数据的价值
数盲不要紧,补课大数据管理指南
企业转型的 48 字口诀
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服