打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
大数据技术是生动有趣的

一、大数据技术

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据并非是枯燥数字的叠加和累计,恰恰相反,它们是生动有趣的。例如通过研究你的消费习惯,可以推测出若干年后你的财产状况;或是根据你的观影偏好,为你推荐志同道合的“小伙伴”。隐藏在图表和数字背后的,正是一个个意想不到的生活现象,

我们现在每两天产生的数据量是相当于过去到 2003 年为止累积的数据量。

如果我们将一天内产生的数据全部烧录进 DVD 光碟内,那这些光碟叠起来可以搭成地表到月球的 DVD 高塔,而且还是「双塔」。

大数据飞快成长,到 2015 年,为了处理大数据,全球多出了 4.4 百万个 IT 职位,也因此这方面的专业人士缺口,各行各业都在抢夺大数据专家 到 2018 年时,美国地区将面临 14 万到 19 万的大数据专业人才短缺,以及 150 万个拥有洞察大数据的能力、因而做出好的企业决策管理阶层人才。

目前世界各地的数据中心(超过 50 万个)加起来相当于 6000 个足球场的大小。

根据 Tata Consultancy Services Limited(TCS)在 2013 年发表的研究,各企业的数据里 51% 是结构化数据、27% 是非结构化数据、21% 是半结构化数据。

  有将近 75% 的企业表示将逐渐增加对大数据的投资。

根据 EMC2 的报告,25% 的企业已经有聘请数据科学家,24% 的企业正在使用大数据分析工具,57% 的企业则在慎重考虑采用大数据分析工具。

  如果大数据能善加利用在医疗领域,以美国地区为例,将会减少 8% 的医疗开销并省下 3000 亿美元。

  最近几年来,已经有 5 亿美元的风险投资基金注入大数据科技公司里。

二、大数据技术应用的经典案例

1、每个观众都是导演。

美国总统奥巴马都说好的年度神剧《纸牌屋》征服了全球观众。殊不知,《纸牌屋》其实是名副其实的大数据产物,该剧的制作公司从3000万付费用户的数据中总结收视习惯,并根据对用户喜好的精准分析进行创作。可以说,这部电视剧拍什么、谁来拍、谁来演、怎么播,这些全部其实都是3000万观众共同决定的。

2、维护世界和平

2010年10月23日英国《卫报》利用维基解密的数据做了一篇“数据新闻”。编辑们对英国赴伊拉克军队的伤亡数据进行整理,将每一起英军死伤事件用红点标注在地图上,经过统计,这张“伤亡地图”中的红点多达39万多个。该新闻一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决绝。

 3、预报流感病情

流感也可以像天气预报一样被精准预报,这并不是科幻电影里的内容。2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型进行计算,就这样,Google成功预测了2009冬季流感的传播,这种预测甚至可以具体到特定的地区和州。

4、找到纽约市最差的停车位

在纽约,停车难众所周知,而且纽约违章停车罚款很严格,纽约市的金融部门每年从罚单中收款约为6亿美元。

为了发现为什么有这么多的罚款,美国数据分析师本?威零顿利用纽约市消防笼头的地图和政府公开的停车违规的罚单信息找出了纽约最容易吃到违章停车罚单的停车位。

他做出了一张前250个迟到最多违章停车罚单的消防栓位置图。

得出的结论是1、别在上东区停车,千万别停,因为不论在哪儿都会吃罚单。2、他找出了全纽约市最容易迟到违章停车罚单的两个消防栓的位置。都在上东区,每年能在罚单上创收5万5千多美金!

他认为这是很奇怪的一件事,5万5千多美金!为什么别人都会在那里犯错!所以他深入挖掘了一下原因,因为每一个消防栓有一个叫做扩展区域的地方可以用来走路,然后是一个停车位。所以司机开到这里来的时候认为“还有一段距离,这里没问题”,何况地上还有一个停车位。但纽约警察局不认可这个停车位,还是会给他们罚单。

他把这个情况反馈到自己的博客上,收到了交通部门很官方的回复,但是几周后,他发现这个停车位真的被重新画了。因为这个发现,将为很多市民们省下罚金。

5、按下按钮,心绪暴露

大数据的隐秘魅力就在于,他比你都了解你。你以为你每次按下手机按键的动作都是一样的吗?来自今日头条的技术副总裁杨震原告诉童鞋们,他们有一项技术,能从你点击按键的时间和手指面积,推测出你当时的情绪。实际上对你情绪的推测是建立在对你多次正常点击的记录之上的。这种行为数据甚至在你还未意识到的时候,就“出卖”了你的情绪。你的漫不经心、愤怒或者感动,都能够成为后台为你推送何种消息的依据。未来,如下场景可期:

如果你正处在领到本月工资飘飘欲仙的快乐中,也许客户端会为你推送——在北京月两万何时能买一个厕所?北美最大的电商平台Wish可以用大数据的方法,根据每个人的数据不同,“看人下菜碟”地推荐你可能喜欢的货品。

业内人士指出,移动互联时代,手机成为用户获取资讯的重要入口,一点资讯与百度完全基于搜索关键词不同,通过网民的‘点击、搜索、频道订阅、停留时长、评论’等阅读行为,对上亿网民的数据进行深度挖掘,不但能洞察用户的关注点与关注度,还能看到如用户对于热点话题的情绪大数据,这种基于移动端的更加精准及多维度的大数据,再反向校准一点资讯兴趣引擎的内容推送,同时服务于企业精准营销,或将引导大数据应用的真正落地。

3月7日,《中国经济生活大调查》在央视CCTV2黄金时段播出。作为中国规模最大的媒体民生调查活动,本届大调查联合腾讯、阿里、滴滴等国内知名互联网企业,利用“线下调研+线上大数据”的方式深度洞察国人经济生活。一点资讯作为独家合作资讯平台,利用其全球首创的“兴趣引擎”,对1.9亿网民的阅读行为进行深度挖掘,为《中国经济生活大调查》提供重要支撑。

数据显示,各地区喜爱的资讯有所不同,颇具地域特色:最爱看时政资讯的是北京人;最爱看股票资讯的是上海人;最爱看养生资讯的是广东人;最爱看育儿资讯的是山东人;最爱看汽车资讯的是四川人。

6、用大数据改造农业

“大数据的应用以及物联网的成熟,将弥补很多传统农业的不足,让整个产业更加科学合理。”农业大数据的收集在发达国家其实已经颇为成熟。Data.gov 是奥巴马政府在 2009 年推出的,该网站上有诸如植物基因组学和当地天气情况的详尽数据库,还有一些关于特定土壤条件下最佳种植作物的研究、降水量的变化、害虫和疾病的迹象,以及当地市场作物的期望价格等数据库。在河北廊坊的郊区,软通动力的团队在做着基于大数据的“智慧农业”尝试。软通动力在农田里安装了内置摄像头的传感器,通过传感器、摄像头等终端应用收集、采集农产品的各项指标,并将数据汇聚到云端进行实时监测、分析和管理,比如每天的气温、湿度、雨量等信息,还向农民发放了智能手机和平板电脑,让大家随时记录工作成果和现场注意到的问题。

7、“汽车”背后有趣的大数据

今日头条市场副总裁林楚方表示:“过去一年今日头条的汽车资讯阅读量超过了71亿,这个是特别庞大的数据”。数据显示,二三线城市的对汽车感兴趣的用户群体更大,最关注汽车的省份新疆是第一名,占到20.12%;城市里面第一名是山东临沂。这与我们的印象不同,大部分我们熟悉的一线城市的用户并没有更关注汽车,不难分析出原因,因为对三四线城市他们买车是他们特别需要关注的,同时是一件非常有趣的事情,汽车消费市场充满潜力。

8、保险公司最喜欢和大数据在一起

所有数据一个都不能少,这就是所谓的“全量加工”,这些数据的制造者正是各大厂商利润的源泉。如果你是一个鲁莽的人,最想知道这个情况的无疑是你的汽车保险公司,想必你的保费会居高不下;如果你是一个谨小慎微的人,最想知道的也是保险公司,因为它可以用打折的保费吸引你投保。

在你身上,甚至存在一个精确的“岀险率”数字。这个听上去很惊悚的数字恰恰是保险公司利润的来源。因为不掌握这样大数据的个人,是无法计算自己的岀险率的。保险公司恰恰利用这种信息不对称,给一个岀险率是万分之一的人开出了千分之一的保价,相当于赚了十倍的利润。

9、开放大数据提升政府治理能力

2015年8月,国务院印发《促进大数据发展行动纲要》,明确大数据在推动经济转型发展、重塑国家竞争优势以及提升政府治理能力等方面具有重要意义,要求政府部门建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,推动政府管理理念和社会治理模式进步,逐步实现政府治理能力现代化。

 

三、你的“姿势”,才是真的大数据

银行每天的交易账目流水的统计数据,并不是大数据,而每个用户在拿号之后等待了多久才排到,有多少用户骂娘,有多少用户过于焦急愤而离去,这些真正的行为才是大数据。

今日头条技术副总裁杨震原举了今日头条在应用中的另一个例子。

实际上,你在一篇文章的什么位置停留多久,然后划动了多远,在新的位置停留了多久,是否看了评论,看了几条评论,都可以按顺序被记录下来。接下来就是通过算法评估读者的兴趣所在。

四、大数据就是:所有数据一个都不能少

360商业产品首席架构师刘鹏是一名网红,他在很多场合都强调:所有数据一个都不能少,这就是所谓的“全量加工”,全量加工才是大数据。他说,涉及到个性化推荐、计算广告、个人征信这些场景,大规模的计算就是无法避免的。

从技术角度来说,之所以大数据可以做到这么精准,也主要得益于技术的进步。感知设备被丰富地用在五花八门的硬件上,使得以前无法记录的数据,现在都可以被记录了。

五、隐私问题要靠技术改进

数据比它看上去的样子更险恶,这是大数据业内人士的普遍共识。即使隐去了你的姓名电话等等敏感信息,只保留你和其他人联系的记录,熟悉你的人完全可以猜到你的身份。目前大数据的安全性,在他人的恶意之下,显得力不从心。

隐私问题,制度只能解决20分,剩下的80分要靠技术进步来解决。

如何精确统计出有多少人喜爱苍井空,有多少人喜欢武藤兰,但是又不泄露到底是谁喜欢苍老师,谁喜欢武老师,这是目前大数据的最前沿研究。

有关大数据的政策再严格,没有一套可靠的保密技术,数据的安全都是无从谈起的。隐私算法、数据脱敏、数据隔离。都是研究的方向。在此之前,各位的大数据还都在相对危险的状态。这也是为什么目前法律没有禁止数据买卖,而各大巨头却不敢将数据出售的原因。当然,大数据库市场价目前比较低也是一个重要的原因。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
如何用大数据发现纽约最糟糕的停车位?
有罚单请签收
交警:没有停车位别着急,教你三个办法,避免被贴罚单!
交警提示:没有停车位时,这样做,可以避免被贴罚单!
停车位紧张,找不到车位怎么办?交警:教你一招,不会被贴罚单!
出门找不到停车位怎么办?交警教给你一招,简单安全还不被贴罚单
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服