打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据建模的真正难点:院士往往看不到

   前些天听某院士讲工业大数据建模。他特别强调了意义和价值,却完全没有意识到这个问题和难点在什么地方。在我看来,他指出的方向,不远处就是一条沟。

 很多人不知道工业大数据建模的困难。大家可以先思考一个问题:

两个人从事数据建模。一个人有100个样本,另一个人有100万个样本。谁的工作更容易?

粗粗一想,人们一定会说:当然是有100万条数据更容易!因为条件更好啊。但仔细想想,答案可能会变。所谓的建模成功,往往就是模型达到一定的精度要求。是让100个样本达到精度要求容易,还是让100万条达到精度要求容易?于是,答案就变成了:100个样本建模更容易。

如何理解这个悖论呢?

其实,我们应该怀疑的是:单纯凭借精度,能不能衡量一个模型的好坏?我们知道:现在几乎所有的论文,都是拿精度指标来衡量的。但这样衡量就是对的吗?

我经常给大家讲一个段子:有人让小朋友指认眼前的几个人谁是他的妈妈。小朋友说:穿红衣服的就是妈妈!小朋友回答正确。这人马上确认了孩子的妈妈。

“穿红衣服的就是妈妈”这句话是对的。但问题是:换个场景就不对的了!换了场景后,妈妈可能会穿白衣服,其他人也可以穿红衣服。所以,孩子的回答不适合场景变化。

数据建模也是这样。100个样本建立的模型可能精度很高,但来了新的样本可能就不合适了。100万条数据建立的样本精度可能会低一点,但新来的样本却可能是对的。100万条数据有利于建模,指的是有利于建立可靠的、能广泛应用的模型。

马克.吐温有句名言:“戒烟最容易了:我戒了100多次了!”。做成一件事,难在坚持;做好一个模型,难在适用范围广、长期适用。

但是,如何才能建立起适用范围广又长期适用的模型呢?这就要求模型符合客观规律、体现因果关系,而不是体现偶然联系。那么,怎样才能做到:“符合客观规律、体现因果关系”呢?我一直讲的、数据分析的很多技巧,就体现在这个地方。这不是几句话就能讲清楚的了。但做这一行的人,应该朝着这个方向思考。

精度是衡量模型好坏的重要的指标、不可缺少的指标。但是,不能把精度当成唯一的指标。在现实中,并不是模型的精度越高越好。这是因为:现实中的数据都是有误差、有偏差的、有缺失的,这些误差往往也符合一定的统计规律。在数据误差有统计规律的前提下,精度最高的模型往往是偏离客观实际的。用一句通俗的话就是:取得高精度的机制是“错错得对”。当然,数据精度高也是有可能的——但那一般是科学研究的场景,而不是工业大数据建模。正确地认识精度,是个大学问。

讲大数据建模的那位院士并不懂这些道理。他想要的东西不是现实中的,而真正的大数据建模他并不认可。就像“叶公好龙”故事说的那样:他喜欢的不是真正的大数据建模,而是艺术化的幻想。

他的报告很可能是广受欢迎的:因为多数人就是他这么想的。但在创新的过程中,多数人的“正常想法”往往并不靠谱,需要让实践中的挫折来纠正才行。要得到“靠谱”的想法,必须有批判性思维,让思维去理解现实中的挫折。这位院士没有在数据建模的实践中受过挫折、多是从别人的文章中得到信息。他的想法自然也就难以靠谱。

我担心的是:他去指导和评价别人的工作,岂不是要阻碍科技发展?

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
传感器与检测技术-9.6 软测量技术
[模型优化]模型欠拟合及过拟合判断、优化方法
客货共线无砟轨道平顺状态预测模型
基于无人机倾斜实景模型的EPS裸眼三维测图1:500地形图采集案例分享
基于无人机倾斜摄影技术的大比例尺地形图测绘方法
无人机倾斜测量技术在大比例尺地形测绘中的应用研究
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服