打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
为什么你没有从你的数据科学中获得价值

今天的企业不断产生大量的数据,但并不是所有这些数据都能转化为可操作的信息。 在过去几年里,我和我的MIT研究小组一直在寻找一个基本性问题的答案:企业如何通过机器学习实现其数据存储库的全部潜能?

当我们与各行各业的合作伙伴一起设计基于机器学习的解决方案时,我们惊讶地发现,针对这个问题的现有答案通常不适用。 为什么?

首先,每当我们与机器学习专家(数据科学家专注于培训和测试预测模型)谈论他们工作中最困难的部分时,他们一再说,“数据是一团糟。”最初,我们想象它涉及数据的缺失值或数据库之间缺乏一致性的众所周知的问题。但是当我们挖掘更深,我们意识到这个问题略有不同。乍一看,即使专家对于这些最原始形式的数据也因其过于庞大和复杂而不能理解。它的表格和字段繁多,并且通常以非常高的粒度收集(例如,在线点击流每次点击生成新数据,并且传感器数据以每秒125次观察收集)。机器学习专家习惯于使用已经聚合成有用变量的数据,例如用户的网站访问次数,而不是用户在网站上采取每个操作的表格。

与此同时,我们经常听到商业专家抱怨“我们有很多数据,但却没有好好利用它们做任何事情。”进一步的调查显示,这也不是完全正确。 相反,这种挫折来自两个问题。 一方面,由于机器学习问题的理解,制定和处理数据需要花费时间,机器学习专家通常专注于管道的后期部分 - 尝试不同的模型,或者调整模型的超参数一次 制定了一个问题,而不是为不同的业务问题制定新的预测问题。 因此,虽然业务专家提出了问题,机器学习专家却总是不能同步。

另一方面,机器学习专家通常没有围绕最终的目标推导业务价值构建他们的工作。 在大多数情况下,预测模型旨在提高效率,增加收入或降低成本。 但是,实际上在模型上工作的人很少会问“这个预测模型提供什么价值,我们如何衡量它?”提出这个关于价值主张的问题常常导致原始问题公式的变化,而提出这样的问题经常 比调整过程的后期阶段更有效。 在最近一个满是机器学习爱好者的小组中,我对大约150人的观众进行了调查,询问“你们中有多少人已经建立了机器学习模型?”大约三分之一的人举手。 接下来,我问:“你们中有多少人已经部署和/或使用这个模型来产生价值,并评估它?”没有人举手。

换句话说,机器学习专家希望花费他们的时间构建模型,而不是处理海量数据集或将业务问题转化为预测问题。 同样,当前的商业和学术技术景观集中于实现更复杂的模型(通过Latent变量模型),缩放模型学习算法(通过分布式计算)或微调(通过贝叶斯超优化),实际上所有后期阶段 的数据科学管道。 然而,根据我们的经验,我们发现这个焦点是错误的。

如果公司希望从他们的数据中获得价值,他们需要专注于加速人们对数据的理解,扩大他们在短时间内可以询问数据建模问题的数量,并评估它们的影响。 在与公司的合作中,我们最终决定通过机器学习创造真正的影响将来自于以下四个原则:

坚持使用简单模型:我们决定简单的模型,如逻辑回归或基于随机森林或决策树的模型,足以解决手头的问题。 重点应该是减少数据采集和开发第一个简单预测模型之间的时间。

探索更多问题:数据科学家需要能够快速轻松地快速定义和探索多个预测问题。 不要用一个令人难以置信的复杂的机器学习模型探索一个业务问题,公司应该探索几十个,为每个建立一个简单的预测模型,并评估他们的价值主张。

从数据样本中学习 - 并非所有数据:不是专注于如何应用分布式计算来允许任何单独的处理模块处理大数据,而是投资于能够从数据子样本推导出类似结论的技术。 通过规避大量计算资源的使用,他们将能够探索更多的假设。

关注自动化:为了实现缩短第一个模型的时间和提高勘探速度,公司必须自动化通常手动完成的流程。 在不同的数据问题上,我们发现我们应用类似的数据处理技术,无论是将数据转换为有用的聚合,还是为预测建模准备数据 - 是时候精简这些数据处理技术,开发算法和构建软件系统 它们会自动执行。

这种对数据科学家如何与数据交互以及瓶颈在哪里导致我们在麻省理工学院启动“人力数据交互项目”的深刻理解,重点是上述目标。 我们的目标是快速探索预测模型,并实际上通过解决真实组织中的真实问题来使用它们。 这些模型将是简单的,自动化将使即使天真的用户在几小时内开发成千上万的预测模型 - 这是今天需要专家整个月。

Kalyan Veeramachaneni是麻省理工学院信息与决策系统(LIDS)实验室的首席研究员,在那里他指导一个名为数据到AI的研究小组。 他也是PatternEx和Feature Labs的共同创始人。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
为何企业无法从数据科学中真正获得价值?
年薪百万的机器学习专家,为什么不产生价值?
2017年大数据发展八大预测
机器学习,不是你想用就能用
商业领袖:AI和机器学习的整合始于数据科学家
业务预测:了解一些基本知识
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服