2006年,英国数学家Clive Humbly和Tesco俱乐部卡的设计师创造了“数据就是新油(Data is the new oil)”这句话。他说:
“数据是新的石油。它很有价值,但如果未经提炼就不能使用。它必须转变为天然气,塑料,化学品等,以创造一个有价值的实体驱动盈利的活动; 所以,必须对数据进行分解和分析,才能使其具有价值。“
数据科学是一个多学科领域。它是以下领域之间的交集:
我们的重点将是简化数据科学的机器学习方面。在本文中,我将首先介绍数据科学中的原理,一般过程和问题类型。
关键原理
处理
根据第二条原则,现在让我强调一下数据科学的过程部分。以下是一个典型的数据科学项目的阶段:
1.定义业务问题
阿尔伯特爱因斯坦曾引用“每件事都应该尽可能地简单,但不能越简单越好”。这句话是定义业务问题的关键。需要开发和构建问题陈述,需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没有需要解决的挑战。头脑风暴会议,研讨会和访谈可以帮助发现这些挑战并提出假设。让我用一个例子来说明这一点。让我们假设一家电信公司由于客户群减少而导致其同比收入下降。在这种情况下,业务问题可能定义为:
2.分解为机器学习任务
业务问题一旦定义,就需要分解为机器学习任务。让我们详细说明我们在上面设置的示例。如果组织需要通过定位新的细分市场并减少客户流失来扩大客户群,那么我们如何将其分解为机器学习问题?以下是分解的示例:
3.数据准备
一旦我们定义了业务问题并将其分解为机器学习问题,我们就需要深入研究数据。数据理解应该明确手头的问题。它应该有助于我们制定正确的分析策略。需要注意的关键事项是数据来源,数据质量,数据偏差等。
4.探索性数据分析
宇航员穿越宇宙的未知。同样,数据科学家遍历数据模式的未知,窥探其特征的奥秘并制定出未被探索的内容。探索性数据分析(EDA)是一项令人兴奋的任务。我们可以更好地理解数据,研究其中的细微差别,发现隐藏的模式,开发新特性并制定建模策略。
5.建模
在EDA之后,我们进入建模阶段。在这里,我们根据具体的机器学习问题,我们应用有用的算法,如回归,决策树,随机森林等。
6.部署和评估
最后,对所开发的模型进行了部署。它们被持续监测,以观察它们在现实世界中的行为,并据此进行校准。
通常,建模和部署部分仅占工作量的20%。80%的工作是接触数据,探索数据并理解数据。
机器学习问题类型
一般来说,机器学习有两种任务:
监督学习
监督学习是一种机器学习任务,其中存在已定义的目标。从概念上讲,建模者将监督机器学习模型以实现特定目标。监督学习可以进一步分为两类:
回归
回归是机器学习任务的主力。它们用于估计或预测数值变量。回归模型的几个例子可以是:
分类
顾名思义,分类模型对某些事物进行了分类。估计哪个最合适。分类模型经常用于所有类型的应用程序。分类模型的例子很少:
无监督学习
无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何特定目标,因此有时难以解释其产生的结果。有许多类型的无监督学习任务。关键是:
机器学习任务从模型到算法
一旦我们将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。通常,模型是在多种算法上训练的。选择提供最佳结果的算法或算法集用于部署。
Azure Machine Learning具有30多种预先构建的算法,可用于训练机器学习模型。
Azure Machine Learning备忘录将有助于浏览它。
结论
数据科学是一个广阔的领域。这是一个令人兴奋的领域。这是一门艺术,这是一门科学。在本文中,我们刚刚探讨了冰山的表面。如果不知道“为什么”,那么“如何”将是徒劳的。在随后的文章中,我们将探讨机器学习的“原理”。
联系客服