谷歌教你学 AI-第三讲简单易懂的估算器

翻译/校对: Mika

本文为 CDA 数据分析师原创作品，转载需授权

Google Cloud发布了名为"AI Adventures"的系列视频，用简单易懂的语言让初学者了解机器学习的方方面面。

观看更多国外公开课，点击"阅读原文"

前两期我们分别讲到了机器学习的概念和具体步骤，今天让我们来看到第三讲，使用TensorFlow Estimator进行机器学习。

回顾之前内容：

谷歌教你学 AI -第一讲机器学习是什么?

谷歌教你学 AI -第二讲机器学习的7个步骤

CDA字幕组目前在对该系列视频进行汉化，之后将继续连载，欢迎关注和支持~

主讲人还是来自Google Cloud的开发人员，华裔小哥Yufeng Guo。让我们在学习AI知识的同时来提高英语吧。

附有中文字幕的视频如下：

AI Adventures--第三讲简单易懂的估算器

针对不方便打开视频的小伙伴，CDA字幕组也贴心的整理了文字版本，如下：

机器学习棒极了，除了它迫使你用到高数的时候。进行机器学习的工具得到了极大地发展，训练模型也从未如此简单。

我们将利用对数据集的理解，而不是对纯粹数学知识的理解，以此编程得出模型，最终得出相应见解。在本期视频，我们将用少部分代码训练一个简单的分类器。

TensorFlow Estimator

为了训练分类器，我们将使用TensorFlow。谷歌的开源机器学习库。 TensorFlow有很庞大的API，但是我们要关注的是当中的高级API，称为Estimator(估算器)。

Estimator为我们把训练循环打包起来，这样我们可以通过配置来训练模型，而不是手工进行编程。从而去除了许多样板文件，让我们在更高的层面上思考抽象问题。意味着我们能够参与到机器学习有意思的部分，而不用为各个细节而烦恼。

由于目前为止我们只涉及到线性模型，因此将主要围绕该部分。之后会再看到这个例子，用来拓展其能力。

鸢尾花分类

这次我们将构建一个模型，用来区分三种类似的花。我感觉这可能没有上一期区分葡萄酒和啤酒那么有意思，但是这些花朵更难区分，从而构成一项有趣的挑战。

我们将对不同种类的鸢尾花进行区分。我不确定我能区分鸢尾花和玫瑰，但是我们模型的目的是区分出山鸢尾(Iris Setosa)、杂色鸢尾(Iris Versicolour)和维吉尼亚鸢尾(Iris Virginica)。

山鸢尾(Iris Setosa)、杂色鸢尾(Iris Versicolour)和维吉尼亚鸢尾(Iris Virginica)

我们有鸢尾花卉数据集，包括花瓣和花萼长宽度数据。这四列将作为我们的“特征”。

加载数据

在引入TensorFlow和NumPy后，我们将加载数据集，使用TensorFlow的函数load_csv_with_header 。数据或者特征呈现为浮点数。同时每行数据或对象的标签记录为整型数(integer)：0、1、2，对应三种花。

我输出了加载的结果，现在我们可以用命名的属性访问训练数据和相关标签或对象。

建立模型

下面我们开始建模。首先我们需要设定特征列。特征列决定了进入模型的数据类型。我们将用到四维特征列表示特征，称为“flower_features”。

使用估算器(estimator)建模超级简单。使用`tf.estimator.LinearClassifier`，我们可以通过传递之前创建的特征列让模型实例化；该模型得出的不同输出数字，比如这里是3；还有存储模型训练过程和输出文件的目录。这使TensorFlow能够在有需要的情况下，继续进行之前的训练。

输入函数

分类对象能帮我们记录状态，然后我们差不多可以进入训练阶段了。最后还有一个连接模型和训练数据的部分，即输入函数。输入函数的作用是创建TensorFlow操作，从而从模型中生成数据。

如今我们从原始数据到输入函数，通过数据，通过特征列的映射，进入到模型中。注意，我们对特征使用定义特征列的相同名称。这样数据才会是相关联的。

运行训练

现在可以开始训练了。为了训练模型，我们要运行classifier.train()函数，当中输入函数作为实参。就这样我们把数据集和模型连接起来。

训练函数处理训练回路，对数据集进行迭代，一步步提高性能。就这样我们完成了一千个训练步骤! 我们的数据集不大，因此完成得很快。

评估

现在该对结果进行评估了。我们可以使用之前相同的分类对象，因为这具有模型的训练状态。为了确定我们模型的性能，我们可以运行classifier.evaluate()函数，传递到测试数据集，从返回的指标中提取准确率。

我们的准确率为96.66%! 很不错嘛!!

Estimators: 简单的工作流程

让我们停下来，回顾一下使用Estimator我们目前实现了哪些成果。

Estimator API 为我们提供了很棒的工作流程，从获取原始数据，通过输入函数传递，设立特色列和模型结构，运行训练，进行评估。容易理解的框架让我们能够思考数据和其性能，而不是依赖数学，这太棒了！

下期预告

在本期视频中，我们看到了TensorFlow高级API中的一个简单版本，使用Estimator。在之后的视频中，我们将探究如何对模型进行扩展，使用更多复杂的数据，添加更多高级特征。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。