训练好的神经网络，如何去解释它的结构和参数？

神经网络在这方面的名声不怎么好，经常被人嘲讽是“黑盒”。不过学界其实一直在探索神经网络的可解释性问题。这方面的研究其实不少，比如这个月（2018年3月）DeepMind刚在arXiv（预印本文库）上发了一篇《On the importance of single directions for generalization》（arXiv:1803.06959）。这篇论文背后的直觉很简单：通过删除神经元，来查看神经元的作用。

比如，之前发现了不少可解释性特别好的神经元，只对某类目标有反应，对其他目标都没有反应。

比如，下图左边的神经元，只对猫有反应，对其他所有东西都不感兴趣。（也许该叫铲屎神经元？）而右边的神经元，就没什么规律了（也许该叫迷茫的神经元？）

令人意外的是，DeepMind的研究人员发现，铲屎神经元和迷茫神经元对整个网络的作用没有明显差别。

从上图我们看到，对于大部分神经元来说，可解释性和其重要性并没有什么关系。而少数关键的神经元，恰恰是迷茫神经元！

所以，神经网络的可解释性，还是一个有待探索的问题。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。