学习 ‖ 深度学习数学基础第一课：深度网络的普遍性

鸡友们，有福了。小鸡接下来将为您带来深度学习数学基础系列课程，本文是第一讲。

适合人群：0-3岁的机器学习工程师

课表：

深度学习数学：讲座1- 简介及深度网络的普遍性

深度学习数学：讲座2 - 深度分离

深度学习数学：讲座3 - 深度分离+

深度学习数学：讲座4 - PAC学习与深层网络

深度学习数学：讲座5 - 随机稀疏网络等

深度学习数学：讲座6 - 简单分层模型

另外，我们也新建了深度学习课程微信群，想加入群组共同进阶的朋友请扫码。

今天的课程里，主要是对深度学习大体的介绍；参考资料是Goodfellow, Bengio和Courville写的Deep Learning。

做统计的时候，我们从“自然事件”或者分布函数f出发；数据表示。此处Xi是高维的，分布函数f(Xi)在0到1之间或实数集取值。目标是找到一个最接近已知数据的，最能做出准确预测的函数f＊。

而在深度学习中，考虑一个函数集f(X; θ)。这里X是输入数据，θ是参数（高维）。目标是找到一组参数θ＊使得f(X; θ*)最接近f。

在我们的文章中，θ表示网络。这个网络是由d个函数的组合：

其中构成向量函数。也是我们构建的网络的第i层。每一个都是一个关于的函数。在上面这个树状图里，每个下面的分支数量都是一样的，我们把这个叫做层宽。但是每层的层宽可以不一样。我们讲网络的深度记为d。重要的，第d层也就是的层宽是1。有了以上这些，统计学的方法一般是做线性回归。但是，如果我们假定了函数是线性的，那么由它们组合出来的函数f就也是线性的。这样的话就削弱了把网络构建成多层的意义。因此我们期望是非线性的。一个一般的设计灵感是来自神经科学。我们将输入的信号表示为，输出模型用＝由非线性函数g这样表示：

由这个例子启发，我们定义

这里表示一些函数g的坐标应用。如何选择g呢？一般地，我们希望g是“极小线性”的，所以我们用到激活函数（Rectified Linear Units）。

函数g的其他选择（由神经科学和统计学启发）包括逻辑函数（Logistic function）

这些函数相比激活函数有有界的优点。

如前面提到的，网络最顶层与其他层都不同。首先它一般是一个标量值。其次它通常有统计学解释——一般被视为传统的统计学模型，从而影响我们对顶层的函数g的选择。举例来说，若输出是高斯分布的条件均值，我们选择线性函数；若输出是伯努利试验概率概率，概率P（y）与exp(yz)成比例，且，那么我们选择函数，是西格玛函数。一般地，我们选择这样的soft－max函数：

这里。z中的元素与输出值相关，取值i的概率为。（例如，一个输入为照片的网络，输出

为这张照片是猫，狗，青蛙的概率）。

2. 卷积神经网络

卷积神经网络在参考书GBC中第九章有讲解。卷积神经网络是一种利用网格几何，有线性算子，或称卷积算子的网络。例如，考虑一个第k层可以用如下m x m的网格表示的网络：

定义第k＋1层的函数被下层的2x2的方格做卷积，并作用非线性函数g，即：

参数，，和只取决于本层，而不是特定的方格i，j。这样定义函数h使得这种参数共享的网络具有一种有利的“稀薄”的优点。卷积网络的一个附加特点是“集中”，做完卷积并作用函数g后，我们得到一个“网格索引”函数（参考上面的式子），然后用相邻值的平均值或最大值对这个函数做一个替换。例如：

这种手段也经常用在降维中。

接下来我们要讨论的问题是，我们如何决定网络中的参数。例如。如何选择参数？如何判断哪一个更优？为此我们一般会利用统计学模型。参数会伴随一个概率分布。我们希望取能使得最大的参数。同样的，我们希望让下式取到最小：

这里对数据取期望（像似然法一样）。例如，如果模型y是一个平均值服从的高斯分布，协方差矩阵恒定，我们希望极小化误差损失：

第二个例子，考虑一组依照概率为由伯努利分布取样的样本y，这里h是最后一层。换言之，P（y）是参数为的逻辑。

如何优化J使得既保证准确又能高效呢？我们不会在这门课讲太多因为涉及到很多理论。优化难在1）维度太高，2) 数据太大，3）J是非凸的，4）参数太多（容易过拟合啊）。面对这个任务，一个牛顿想出来的自然的逼近法诞生了：梯度下降！一个较为高效的梯度下降法是向后传播。这是一种动态偏微分的手段。

另一个我们不会讨论的技术（但是学会这个技术你能在硅谷找到工作）是正则化（regularzation）。正则化能较正过拟合的问题。关于过拟合有个笑话，John Von Neumann说“用四个参数可以模拟一头大象的话，那么用五个我就可以转动它的腿”。这个五个参数的梗今天看来可能很好笑，但是这个过拟合的问题现在仍然存在！卷积网络提供了一个参数共享情况下的过拟合的解决办法：与其优化，我们选择优化，这里是“复杂度”。就是说描述了参数的“复杂性”或“庞大”。有些例子里是或的（有凸性的话选择

深度学习的课程里，有其他较正过拟合的办法。一个是数据增强（data agumentation），利用已有的数据去产生更多的数据。例如输入是照片的时候，用旋转和增加阴影的方法去生成更多照片。（一个旋转过的狗的照片它还是狗）。另一个是加噪，在数据（如拍完一张照片后把它涂掉）或者参数里加噪。

4.生成模型——深度Boltzmann模型

有很多深度学习经常用到的概率模型。第一个是图模型（graphical model）。图模型是用图来参数化的一组分布集，可能在边缘上带有参数。因为深度网络在边缘上有参数，我们可以很自然地看到是否可以讲它表示成图模型。一个深度Boltzmann机器是一个联合分布如下的图模型：

这里能量E表达如下：

通常来说，里层是实数向量，顶层和底层要么离散的要么是实数的。

为什么说这个看起来是个图——图模型体现在哪？这里是说一种特别的，所有顶点只跟最邻近的上层和下层链接的二分图。

马尔可夫性质讲到，例如在h1条件下，v中的某一个元素的分布与h2，…，hd和v中其他元素都无关。若v是离散的则可以表示为：

但是不幸的是，一般来讲我们不知道如何对一个图模型采样或者优化，这样就限制了它在深度学习的利用。

5. 深度信念网络

深度信念网络（Deep belief networks）计算更简单，只是定义有些麻烦。这个“杂交”网络是一个d层有向图。除了第一层和第二层无向：

大家可能注意到我们要做一些与之前的研究相悖的事情了。然而我们又如下的事实：如果由（1）定义，那么它一定满足（2）.

注意到我们知道如何对底层按照上层条件取样。但是为了参考，已知输入的时候我们也需要输出的条件分布。

最后要强调一点，深度Boltzmann机器第k层依赖于第k－1和k＋1层，在深度信念网络里，第k层只依赖第k+1层，可以加快生成第k层的速度。

6. 课程计划

第一个课题阐释里网络的表达能力：什么函数可以被网络近似？我们要引用的文献有：

· “Approximations by superpositions of sigmoidal functions” by Cybenko (89).

· “Approximation capabilities of multilayer feedforward networks” by Hornik (91).

· “Representation Benefits of Deep Forward Networks” by Telgarsky (15).

· “Depth Separation in Relu Networks” by Safran and Shamir (16)

· “On the Expressive Power of Deep Learning: A Tensor Analysis” by Cohen, Or, Shashua (15).

前两篇论文我们稍后就会讨论，它们告诉大家你可以用简单的一层网络去表达任何事情。如果你想中途放弃这门课的话我建议你学完这两篇论文再放弃。其他几篇论文，是对单层网络的拓展和具体化。

· “On the computational efficiency of training Neural Networks” by Livni, Shalev Schwartz and Shamir (14).

· “Complexity Theory Limitation for learning DNFs” by Danieli

and Shalev-Schwartz (16).

· “Distribution Specific Hardness of learning Neural Networks” by Shamir (16).

还要用到编程方面的文献：

· “Guaranteed Training of Neural Networks using Tensor Methods” by Janzamin, Sedghi and Anandkumar (16).

· “Train faster, generalize better” by Hardt, Recht and Singer.

· “Provable Bounds for Learning Some Deep Representations” by Arora et. al (2014).

· “Deep Learning and Generative Hierarchal models” by Mossel (2016).

定理.[Cybenko (89)]令为一个单调连续的函数，有极限和。（例如）。那么函数集上就是紧致的。在上述定理中，模为的时候，是从到取值的连续方程空间。定理.[Hornik(91)]考虑上述定理中定义的函数集，但是不包括上面对的定义。－如果有界而且不是常数，那么这个集在上是紧致的，其中是上的有限测度。－在上述条件下，如果是连续的，那么这个集在上是紧致的，这个空间是所有在X上的连续函数，是完备的。－在上述条件下，如果，那么这个集在上是紧致的，而且在也是紧致的，这里是上所有的有限测度。在上述定理中，空间是所有满足的函数f空间，其中模定义为。要证明这个定理需要一些泛函分析的知识。定理.［Hahn－Banach Extension Theorem］如果V是一个模向量空间，它又一个线性子空间U并且，那么存在一个连续线性映射，满足对于所有，有。为什么这个定理对于本课很重要呢？我们对Cybenko和Hornik’s的证明要用到Hahn－Banach extension 定理。我们考虑子空间U，定义它为。然后我们反证，假设不是完整的函数空间。可以总结出在我们的函数空间里存在一个线性连续映射L，在上限制到0但不为0。换言之，为了证明想要的结果，必要的是证明U上的线性映射L映射到0的话那么它一定是一个零映射。然后，在泛函分析里一个在上连续的线性函数L可以表示为这里，且。在C（X）上一个线性连续函数L可以表达为这里是一个有在X上支撑的限符号测度（finite signed measure）。我们可以在Cybenko和Hornik中其他空间的线性方程发现相似的表达。在开始一般的证明之前，考虑一个（简单的）例子，函数空间为，并且。若对于定理定义的集合中所有f有，那么跟L关联的函数一定是0吗？换句话就是说，我们从是有限的，g一定是0，如我们期望的。由此启发，我们现在考虑一个一般的证明Cybenko定理的情况。有

意味着。首先我们从一维的楷书考虑，用傅立叶分析的技巧：定义测度，我们可以观察到。并且，如果我们有对于所有a有，那么（因为）。（注意到这里我们用到了的有限性）。在一维的条件下，我们还用到了另一个小技巧——卷积。对用一个小的高斯分布进行卷积，我们得到一个含有密度的测度Lebesgue测度。运用卷积之后我们有

我们希望h=0。做变量代换，可以重写（3）为

为了说明h=0,用以下抽象傅立叶分析工具。令I为所有构成的线性空间的闭包。因为I在我们的函数转换下是不变的，有在卷积下它是不变的。在抽象傅立叶分析中，I对于卷积是理想的。令Z（I）为所有的集合，是所有在I上消失（Vanish）的函数集。那么Z（I）就是或，因为如果g（t）是理想的那么对于，g（tw）也是理想的。如果那么所有所有理想函数就必须都是常数0. 另外若，通过傅立叶分析，I就是所有满足的函数的集合。例如，所有非常数函数。但是如果是关于所有非常数函数正交的，那么＝0。由以上可归纳出。证明完毕。

播放GIF

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。