打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
学习 ‖ 深度学习数学基础第一课:深度网络的普遍性

鸡友们,有福了。小鸡接下来将为您带来深度学习数学基础系列课程,本文是第一讲。

适合人群:0-3岁的机器学习工程师

课表:

深度学习数学:讲座1- 简介及深度网络的普遍性

深度学习数学:讲座2 - 深度分离

深度学习数学:讲座3 - 深度分离+

深度学习数学:讲座4 - PAC学习与深层网络

深度学习数学:讲座5 - 随机稀疏网络等

深度学习数学:讲座6 - 简单分层模型

另外,我们也新建了深度学习课程微信群,想加入群组共同进阶的朋友请扫码。

1

今天的课程里,主要是对深度学习大体的介绍;参考资料是Goodfellow, Bengio和Courville写的Deep Learning

做统计的时候,我们从“自然事件”或者分布函数f出发;数据表示。此处Xi是高维的,分布函数f(Xi)在0到1之间或实数集取值。目标是找到一个最接近已知数据的,最能做出准确预测的函数f*。

而在深度学习中,考虑一个函数集f(X; θ)。这里X是输入数据,θ是参数(高维)。目标是找到一组参数θ*使得f(X; θ*)最接近f。

在我们的文章中,θ表示网络。这个网络是由d个函数的组合:

其中构成向量函数也是我们构建的网络的第i层。每一个都是一个关于的函数。在上面这个树状图里,每个下面的分支数量都是一样的,我们把这个叫做层宽。但是每层的层宽可以不一样。我们讲网络的深度记为d。重要的,第d层也就是的层宽是1。有了以上这些,统计学的方法一般是做线性回归。但是,如果我们假定了函数是线性的,那么由它们组合出来的函数f就也是线性的。这样的话就削弱了把网络构建成多层的意义。因此我们期望是非线性的。一个一般的设计灵感是来自神经科学。我们将输入的信号表示为,输出模型用=由非线性函数g这样表示:

由这个例子启发,我们定义

这里表示一些函数g的坐标应用。如何选择g呢?一般地,我们希望g是“极小线性”的,所以我们用到激活函数(Rectified Linear Units)

函数g的其他选择(由神经科学和统计学启发)包括逻辑函数(Logistic function)

这些函数相比激活函数有有界的优点。

如前面提到的,网络最顶层与其他层都不同。首先它一般是一个标量值。其次它通常有统计学解释——一般被视为传统的统计学模型,从而影响我们对顶层的函数g的选择。举例来说,若输出是高斯分布的条件均值,我们选择线性函数;若输出是伯努利试验概率概率,概率P(y)与exp(yz)成比例,且,那么我们选择函数是西格玛函数。一般地,我们选择这样的soft-max函数:

这里。z中的元素与输出值相关,取值i的概率为。(例如,一个输入为照片的网络,输出

为这张照片是猫,狗,青蛙的概率)。

2. 卷积神经网络

卷积神经网络在参考书GBC中第九章有讲解。卷积神经网络是一种利用网格几何,有线性算子,或称卷积算子的网络。例如,考虑一个第k层可以用如下m x m的网格表示的网络:

定义第k+1层的函数被下层的2x2的方格做卷积,并作用非线性函数g,即:

参数只取决于本层,而不是特定的方格i,j。这样定义函数h使得这种参数共享的网络具有一种有利的“稀薄”的优点。卷积网络的一个附加特点是“集中”,做完卷积并作用函数g后,我们得到一个“网格索引”函数(参考上面的式子),然后用相邻值的平均值或最大值对这个函数做一个替换。例如:

这种手段也经常用在降维中。

接下来我们要讨论的问题是,我们如何决定网络中的参数。例如。如何选择参数?如何判断哪一个更优?为此我们一般会利用统计学模型。参数会伴随一个概率分布。我们希望取能使得最大的参数。同样的,我们希望让下式取到最小:

这里对数据取期望(像似然法一样)。例如,如果模型y是一个平均值服从的高斯分布,协方差矩阵恒定,我们希望极小化误差损失:

第二个例子,考虑一组依照概率为伯努利分布取样的样本y,这里h是最后一层。换言之,P(y)是参数为的逻辑。

如何优化J使得既保证准确又能高效呢?我们不会在这门课讲太多因为涉及到很多理论。优化难在1)维度太高,2) 数据太大,3)J是非凸的,4)参数太多(容易过拟合啊)。面对这个任务,一个牛顿想出来的自然的逼近法诞生了:梯度下降!一个较为高效的梯度下降法是向后传播。这是一种动态偏微分的手段。

另一个我们不会讨论的技术(但是学会这个技术你能在硅谷找到工作)是正则化(regularzation)。正则化能较正过拟合的问题。关于过拟合有个笑话,John Von Neumann说“用四个参数可以模拟一头大象的话,那么用五个我就可以转动它的腿”。这个五个参数的梗今天看来可能很好笑,但是这个过拟合的问题现在仍然存在!卷积网络提供了一个参数共享情况下的过拟合的解决办法:与其优化,我们选择优化,这里是“复杂度”。就是说描述了参数的“复杂性”或“庞大”。有些例子里的(有凸性的话选择

深度学习的课程里,有其他较正过拟合的办法。一个是数据增强(data agumentation),利用已有的数据去产生更多的数据。例如输入是照片的时候,用旋转和增加阴影的方法去生成更多照片。(一个旋转过的狗的照片它还是狗)。另一个是加噪,在数据(如拍完一张照片后把它涂掉)或者参数里加噪。

4.生成模型——深度Boltzmann模型

有很多深度学习经常用到的概率模型。第一个是图模型(graphical model)。图模型是用图来参数化的一组分布集,可能在边缘上带有参数。因为深度网络在边缘上有参数,我们可以很自然地看到是否可以讲它表示成图模型。一个深度Boltzmann机器是一个联合分布如下的图模型:

这里能量E表达如下:

通常来说,里层是实数向量,顶层和底层要么离散的要么是实数的。

为什么说这个看起来是个图——图模型体现在哪?这里是说一种特别的,所有顶点只跟最邻近的上层和下层链接的二分图。

马尔可夫性质讲到,例如在h1条件下,v中的某一个元素的分布与h2,…,hd和v中其他元素都无关。若v是离散的则可以表示为:

但是不幸的是,一般来讲我们不知道如何对一个图模型采样或者优化,这样就限制了它在深度学习的利用。

5. 深度信念网络

深度信念网络(Deep belief networks)计算更简单,只是定义有些麻烦。这个“杂交”网络是一个d层有向图。除了第一层和第二层无向:

大家可能注意到我们要做一些与之前的研究相悖的事情了。然而我们又如下的事实:如果由(1)定义,那么它一定满足(2).

注意到我们知道如何对底层按照上层条件取样。但是为了参考,已知输入的时候我们也需要输出的条件分布。

最后要强调一点,深度Boltzmann机器第k层依赖于第k-1和k+1层,在深度信念网络里,第k层只依赖第k+1层,可以加快生成第k层的速度。

6. 课程计划

第一个课题阐释里网络的表达能力:什么函数可以被网络近似?我们要引用的文献有:

· “Approximations by superpositions of sigmoidal functions” by Cybenko (89).

· “Approximation capabilities of multilayer feedforward networks” by Hornik (91).

· “Representation Benefits of Deep Forward Networks” by Telgarsky (15).

· “Depth Separation in Relu Networks” by Safran and Shamir (16)

· “On the Expressive Power of Deep Learning: A Tensor Analysis” by Cohen, Or, Shashua (15).

前两篇论文我们稍后就会讨论,它们告诉大家你可以用简单的一层网络去表达任何事情。如果你想中途放弃这门课的话我建议你学完这两篇论文再放弃。其他几篇论文,是对单层网络的拓展和具体化。

· “On the computational efficiency of training Neural Networks” by Livni, Shalev Schwartz and Shamir (14).

· “Complexity Theory Limitation for learning DNFs” by Danieli

and Shalev-Schwartz (16).

· “Distribution Specific Hardness of learning Neural Networks” by Shamir (16).

还要用到编程方面的文献:

· “Guaranteed Training of Neural Networks using Tensor Methods” by Janzamin, Sedghi and Anandkumar (16).

· “Train faster, generalize better” by Hardt, Recht and Singer.

· “Provable Bounds for Learning Some Deep Representations” by Arora et. al (2014).

· “Deep Learning and Generative Hierarchal models” by Mossel (2016).

定理.[Cybenko (89)]令 为一个单调连续的函数,有极限。(例如)。那么函数集上就是紧致的。在上述定理中,模为的时候,是从取值的连续方程空间。定理.[Hornik(91)]考虑上述定理中定义的函数集,但是不包括上面对的定义。-如果有界而且不是常数,那么这个集在上是紧致的,其中上的有限测度。-在上述条件下,如果是连续的,那么这个集在上是紧致的,这个空间是所有在X上的连续函数,是完备的。-在上述条件下,如果,那么这个集在上是紧致的,而且在也是紧致的,这里上所有的有限测度。在上述定理中,空间是所有满足的函数f空间,其中模定义为。要证明这个定理需要一些泛函分析的知识。定理.[Hahn-Banach Extension Theorem]如果V是一个模向量空间,它又一个线性子空间U并且,那么存在一个连续线性映射,满足对于所有为什么这个定理对于本课很重要呢?我们对Cybenko和Hornik’s的证明要用到Hahn-Banach extension 定理。我们考虑子空间U,定义它为。然后我们反证,假设不是完整的函数空间。可以总结出在我们的函数空间里存在一个线性连续映射L,在上限制到0但不为0。换言之,为了证明想要的结果,必要的是证明U上的线性映射L映射到0的话那么它一定是一个零映射。然后,在泛函分析里一个在上连续的线性函数L可以表示为这里,且。在C(X)上一个线性连续函数L可以表达为这里是一个有在X上支撑的限符号测度(finite signed measure)。我们可以在Cybenko和Hornik中其他空间的线性方程发现相似的表达。在开始一般的证明之前,考虑一个(简单的)例子,函数空间为,并且 。若对于定理定义的集合中所有f有,那么跟L关联的函数一定是0吗?换句话就是说,我们从是有限的,g一定是0,如我们期望的。由此启发,我们现在考虑一个一般的证明Cybenko定理的情况。有

意味着。首先我们从一维的楷书考虑,用傅立叶分析的技巧:定义测度 ,我们可以观察到并且,如果我们有对于所有a有,那么(因为)。(注意到这里我们用到了的有限性)。在一维的条件下,我们还用到了另一个小技巧——卷积。对用一个小的高斯分布进行卷积,我们得到一个含有密度的测度Lebesgue测度。运用卷积之后我们有

我们希望h=0。做变量代换,可以重写(3)为

为了说明h=0,用以下抽象傅立叶分析工具。令I为所有构成的线性空间的闭包。因为I在我们的函数转换下是不变的,有在卷积下它是不变的。在抽象傅立叶分析中,I对于卷积是理想的。令Z(I)为所有的集合,是所有在I上消失(Vanish)的函数集。那么Z(I)就是,因为如果g(t)是理想的那么对于,g(tw)也是理想的。如果那么所有所有理想函数就必须都是常数0. 另外若,通过傅立叶分析,I就是所有满足的函数的集合。例如,所有非常数函数。但是如果是关于所有非常数函数正交的,那么=0。由以上可归纳出。证明完毕。

播放GIF

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
深度神经网络中的数学,对你来说会不会太难?
北京大学数学科学学院应用统计硕士考研考博辅导班考试大纲
从2019 AI顶会最佳论文,看深度学习的理论基础
机器学习里的贝叶斯基本理论、模型和算法
机器学习|回归算法中的贝叶斯
深入探究贝叶斯线性回归的机理及其本质
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服