打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
“数据挖掘者”起先是个贬义词


瞎侃侃

大数据来了之后,人们充满了无限遐想。人人都知道数据很重要,想着我获取海量数据之后,配以先进算法,编制好用软件,让计算机利用大数据挖掘出各种有意义的结果来,带给我们惊喜,帮助我们决策。
想法非常好。可事实上如此吗,并不是。看看我们的周围,耳熟能详的大数据应用也就在于那几个电商之中。至于疫情防控、安防等方面的应用,那就是精准监控,哪里是什么大数据分析,扯不上。
一帮学者学生的学术研究方面,去搜论文和项目,带大数据三个字的可真是海量啊。如果你是一个较真的人并且有点这方面基础的人,你去挖挖看,那些所谓的大数据研究,哪里是什么大数据,能把传统的数据统计分析做好都是很不错的了。
诺贝尔奖获得者罗纳德科斯说:只要拷问数据的时间足够长,它就会屈打成招的。
大数据概念炒热之前是什么最流行?数据挖掘。数据挖掘的书可真是汗牛充栋啊,内容都是三碗豆腐豆腐三碗。那个啤酒和尿布的可笑故事一再上演,我每写一篇类似的文章,都会把这五个字拿出来鞭尸。
计算机只接受你输入给它的数字,在它“眼里”,那就是0和1,除此之外没有任何意义。人们如此信任毫无感情和思想思维的计算机、数据,还美其名曰“数据不会说谎”。
“数据挖掘者”拷问数据,得到过一些很可笑的结论:某个公司网页首页把惯用的蓝色改成青色,公司收入可能会随之增加;购买行为与消费者姓氏的长度有关联;喝咖啡会导致胰脏癌;患病之人能被千里之外的医者的正能量治愈;以女性名称命名的飓风更具有杀伤力;女生会被“坏男生”吸引;亚洲裔美国人容易在每月4号发作心脏病;通过庆祝重要事件能推迟自己的死亡......
总会存在一个群体,梳理它们的特征,总能找出它们的共同特征。不是吗?数据挖掘也许不是知识发现,而是噪声发现。
你可能会问,我们那么的多的论文和项目,就是从数据得来的结果,没有多么稀奇古怪的结果出来呢。
对的,我们的做法不是在心里早有了结论,而只是寻找数据来支撑吗?

自诩为神枪手的人在整面墙上放满靶子,然后朝墙开枪。他肯定能射中一个,然后很骄傲地显摆自己的枪法,绝口不提其余没射中的靶子。因为他肯定可以击中一个,所以即便做到了也根本说明不了什么。这好比在研究中验证数百个(或数千、数百万个)理论,然后只报告统计学意义上最有说服力的结果,对所有失败的验证都守口如瓶。只要进行足够多的测试,研究人员就一定可以找到支持的证据。

蹩脚的射手把子弹打到了空白墙上。随后,他绕着弹孔画了个靶心。这也证明不了什么,因为总能找到一个弹孔画圈。这就好比在研究中搜遍数据来寻找模型,找到后再编出一个理论。有所发现只能证明有所寻求。

是时候回头审慎一下了,对于数据、挖掘、大数据,我们在干什么,当然绝大多数人没在干什么。只是为了发几篇文章做几个项目混位子混职称混毕业不在此之列。

还是要提一下:幸存者偏差和选择性偏差,每个人都应该学一学。起码要向如何识别一本正经的胡说八道这个方向努力吧。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
学会数据挖掘,一年发10篇论文!
大数据时代 数据分析师的尴尬
给从业者:数据挖掘与数据建模的9条定律
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
人工智能21个子领域近十年2100名高引学者列表(附详细名单)
如何正确理解商业智能(BI)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服