“深”为什么好？Facebook最新研究剑指神经网络的实际表达能力

神经网络有强大的函数拟合（表达）能力，且层数越深、神经元越多，表达能力越强。各类底层应用如CV\NLP等任务显示，深层网络效果通常优于浅层网络，即“深就是好”。理论上，深层网络有更强的表达能力，这常常被认为是“深就是好”的原因之一。但就实际体现出来的表达能力而言，深层网络较浅层网络究竟强多少呢？

Texas A&M University和Facebook AI的研究人员（Hanin & Rolnick，2019）在ICML2019上联合发文，分析了实际应用到的以Relu为激活函数的神经网络模型，得出相应模型的实际表达能力随深度线性增长的结论。

Relu神经网络的表达能力

Relu激活函数是一个分段线性函数。一个Relu激活函数将输入空间分为两块，每一块内部均是线性函数，如下图左侧。一个Relu神经网络是一个以Relu为激活函数的神经网络，它将输入空间分成多块，每一块内部仍是线性函数，如下图右侧。以下将各个分块称为线性区域（linear region）。

直觉上讲，一个网络，如果能将输入空间划分得更多、更密，它就能拟合更复杂的函数或概率分布。因此，某个神经网络的固定输入空间的线性区域的数目，也就从一个侧面反映了该网络所表达函数的复杂程度；输入空间所能得到的最大划分数目，也就反映了某类架构的神经网络的表达能力极限。

一方面，对于某些特意构造的多项式函数，浅层网络需要指数增长的神经元个数，其拟合效果才能匹配上多项式增长的深层网络（Delalleau and Bengio, 2011）。另一方面，线性个数（O(n)）神经元的神经网络，确实能利用合适的架构（深度和宽度）将输入空间分割为指数个数（2^n）个线性区域，如下图左侧（Telgarsky ,2015）。

然而，这些构造是如此精巧，以致一个轻微的扰动，就会破坏对应的指数关系（如上图右侧）。

我们不禁要问，对于现实中使用的神经网络，而不是理论上的上界和精巧构造下，输入空间被划分出的线性空间数目，和神经网络的架构的关系究竟如何。

真实神经网络的线性区域数目

输入空间I被划分出的线性区域数目#{regions in I }，是一个关于神经网络（架构、参数值等）的函数，有指数上界O(2^n)，且上界可达到；有平凡下界1，其非平凡下界难以分析。如果把神经网络的架构、参数等视为随机变量，则输入空间被划分出的线性区域数目也是一个随机变量。记神经网络使用的激活函数是一个T +1段线性函数（Relu时，T = 1），神经网络有#{neurons} 个神经元。该文章证明，当输入输出维度均为1时，初始化时，如所有神经网络权重有界，则

其中| I | 是输入空间的长度。从而平均意义上，线性区域数目是随神经元个数线性增长的，无论网络深度如何。

进一步，本文推广该结果到n维空间。多维空间的线性区域个数的密度需仔细定义。本文采取投影方法，即对某n维空间的区域K而言，记其体积为

且该区域和输入空间的划分簇相交的部分——即神经网络N不可导的那部分，因为只有在线性区域边界上不可导——在所投射得到的n-1维空间的体积为

其中

本文证明，这部分所占比重随神经元数目线性增长，即：

其中T仍是线性激活函数的段数减去1。更进一步，如果输入数据x在输入空间时均匀分布的话，有

其中

是x到线性区域边界的最短距离。

注意，本文不仅证明如上关系在初始化时成立，且在训练过程中的每一步，即引入优化方法\数据随机性后，上述关系仍然成立。这一结论，强烈反驳了一类认识，即深层网络表现更好，是因为可以学习出指数增长的线性区域数目。

实验验证

文章首先在一维输入空间上验证理论结果，如下图。可见，神经元数目和线性区域数目之比基本是一个常量（纵轴），而无论网络结构如何变化。

在多维空间时，文章利用MNIST数据，得到验证结果如下图：即所有网络，在训练的任何过程中，都有其神经元个数和最短距离之积的期望为近似常数。

文章进一步将实际多个输入数据的最短距离做分布图，如下。可见，在训练过程中，该分布并明显变化。

最后，文章做出示例图如下，显示一个三层、每层64个神经元的神经网络，在MNIST上训练过程中，线性区域数目维持在10的三次方这一量级。

结语

为什么深就是好？这个问题令人着迷。过往认为，深层网络表达能力强，有指数增长的极限能力上界，本文却说明，深层网络相比浅层网络在实际应用中的体现出来的表达能力，以输入空间的线性区域数目来看，平均意义上只随神经元数目线性增长，而和网络深度无关。这一理论结果有待在更复杂的任务上进行实际验证。另外，本文只是关心了一阶统计量，即期望；也许二阶统计量中藏有更有趣的秘密。

最后，有研究指出，深层网络被训练好以后，常常可以找到适当的浅层网络去替代它（Ba & Caruana,2014）。这无疑是本文结果的一个旁证，也暗示了深就是好的原因，也许藏在更容易优化上。这些都有待进一步研究。

本文：Boris Hanin, David Rolnick. Complexity of Linear Regions in Deep Networks. InICML, 2019.

参考文献：
O. Delalleau and Y. Bengio. Shallow vs. deep sum-product networks. In NIPS, 2011.
Telgarsky, M. Representation beneﬁts of deepfeedforward networks. Preprint arXiv:1509.08101, 2015.
Ba, J. and Caruana, R. Do deep nets really need to be deep? In NeurIPS, pp.2654–2662, 2014.

学术头条已建立微信交流群，想进群的同学请加学术君微信：AMiner308，记得备注：名字+单位/学校噢！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。