【紫冬报告】张兆翔：脑启发的视觉计算2017进展回顾

CASIA

今日聚焦

中科院自动化所的张兆翔研究员从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。

'看见'对于人类而言，似乎是一件很简单自然的事，我们通过眼睛从周围环境中获取信息，并根据这些信息指导自己的行动。然而，视觉的发展演变经历了极为漫长的过程，地球上第一个长出眼睛的生物三叶虫距今已有五亿四千万年的遥远历史；我们人类能够获得如今这样强大的视觉能力，是大自然长期进化的结果。

图片来自网络

人类的视觉任务，本质上是人脑对外界视觉信号作出反应的过程；那么，研究人脑的工作机理，能否为计算机的视觉计算提供一些启发，让机器也能做到'看山是山、看水是水'呢？基于此，学术界展开了脑启发视觉计算领域的研究，目前已取得一定成绩。

今天，来自中科院自动化所的张兆翔研究员，将带领大家回顾脑启发视觉计算在2017年取得的关键进展。(文末附上本文所有参考文献的下载链接)

背景

脑启发的视觉计算是从生物大脑的神经结构、认知机制、行为特性等多个层面寻求启发，引入神经科学、认知科学与心理学的先进成果，提出新的视觉计算模型与方法，克服当前模型与方法局限性，提升视觉计算的性能(准确性、鲁棒性、自适应性、可泛化性、可解释性等)。

脑科学与视觉计算可以从如下两个方向加以结合：一是基于脑科学机制进行视觉计算的启发建模；二是现有服务于视觉计算的神经网络模型为脑启发机理提供分析与借鉴。

历史上，计算机视觉的发展与脑启发的引入密切相关，很多脑机制的引入都为计算机视觉的突破提供了借鉴和创新源泉。

以Gabor为代表的局部特征描述子正是借鉴脊椎动物视觉皮层感受野的特性而设计的，在许多计算机视觉任务中展现出很好的性能。

显著性注意机制是从人类视觉感知的显著性注意机制中获得启发，在当前计算机视觉的检索和检测任务中均取得了很好的性能。

从Neocognitron到HMAX、再到当前流行的深度学习方法，都借鉴了大脑中的特征分层和处理机制。当前主流的深度学习方法甚至在识别、分割、检测等任务上取得了可以媲美人类的性能。

机器学习专家Tom Mitchell在2017年的全球互联网大会上进一步强调了脑科学与机器智能相互交叉与借鉴的重要性：

'通过对人类大脑的模仿，计算机在变得越来越强。随着机器智能和脑科学的进一步发展，未来两个学科之间应该有更多的交集，并互相学习和借鉴。'

——Tom Mitchell

2017年全球互联网大会

脑启发视觉计算2017年度进展

下面，主要从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。

1结构机制

突触建模与可塑性学习

在结构层面上，Boyn等人提出了人工神经突触建模与硬件化方法。该方法利用神经元突触强度分布刻画记忆，通过典型的STDP实现学习，在无监督学习问题上验证了人工神经突触的可行性和先进性。这一研究为后续开展类脑器件研究奠定了坚实基础。

人脑感知物体方式

受人脑感知物体方式的启发，Hinton等提出了一种新的神经元结构Capsule。

我们都知道现有卷积神经网络方法需要maxpooling操作；该操作将图像中不同基元间的结构关系完全摒弃，即便同一个人的脸、鼻子、眼睛换一个奇怪的顺序，maxpooling的结果也一模一样。这与人类视觉感知物体的方式有显著差别

为克服上述缺陷，Hinton等提出了新的Capsule网络结构。Capsule可以看成一种新的神经元模型。 Capsule将原来神经元结构标量的输入输出转化为向量的输入和输出，并利用这些向量存储特征的不同属性，进而通过动态路由机制实现从底层到顶层的学习。该种网络结构更符合人类感知物体的方式，且具有举一反三的能力。CapsuleNet在一些视觉任务上虽然没有取得比CNN更好的性能，但作为一个尝试去探索有别于当前深度网络的新模型与新方法具有重要的研究意义。

多种神经元类型

在结构层面上，我们课题组也进行了一系列探索。我们都知道现有卷积神经网络往往都只有一种神经元类型，但人脑中却包含多种；受此启发，我们引入多种神经元类型，并通过自主学习与选择，探索兴奋型神经元和抑制型神经元在相关任务上的有效结合。

我们的模型在不同任务上都获得了比单种神经元模型更好的性能。这些结果验证了模型中多种神经元的有效性，是进一步挖掘人工神经网络与生物神经网络联系的重要切入点。

2功能机制

人脑信息处理机制

在功能层面上,《Science》报道了一个概率生成模型，用于验证码识别。验证码识别是典型的可以测试机器视觉性能的模型，在现实中往往用于区分机器与人。现有深度神经网络往往只有前馈网络，而没有推理。该工作受系统神经科学的启发，引入递归皮试网络（RCN），以统一的框架实现验证码的检测、分割与识别。

RCN模型有前馈过程，有反馈过程。通过不断迭代，使得前馈和反馈同时进行，最后很好地实现验证码的识别，即使对不同形状以及噪声遮挡下的验证码依然可以获得很好的识别性能。RCN能够模仿人脑中前馈和反馈同时处理的机制，具有很好的可解释性和可泛化性，能取得举一反三的效果。

虽然该模型在验证码识别特定任务上取得了比卷积神经网络更好的性能，但也存在显著局限性。该方法往往只能用于一类对基元具有明确定义的问题，而如何将之推广到更一般的感知问题，还有待进一步探索。

层内反馈与门控机制

现有卷积网络同层神经元之间没有连接，而人脑中神经元之间却相互联系。受此启发，清华大学胡晓林等人提出了一种Recurrent Convolutional Network，实现了同层内神经元的连接。

Recurrent Convolutional Network的局限是每个神经元的局部感受野随时间在不断扩大。这不符合生理学事实——人脑当中感受野一定是局部受限的。因此，作者引入一个机制来控制神经元的有效感受野，使其尺寸随内容自动变化。具体做法是在反馈连接上加入一个门控单元，其开闭由前馈信息和反馈信息同时决定，这种模型已经取得当前OCR识别任务最好的效果。

多模态的振荡整合机制

我们课题组借鉴人脑中多模态震荡整合机制来实现多模态的有效融合。传统多模态模型分别提取视觉模态和听觉模态特征，通过简单连接实现视听多模态的融合。这种方式虽然简单，但容易造成信息的混叠，往往效果不太理想。我们的研究引入了长短时记忆同步关联与记忆共享表达，通过借鉴人脑当中类似震荡机制的方式，实现视听模态的有效整合。

我们的工作与单模态方法，其他的多模态整合方法相比具有优越性，同时也呼应了神经科学中的多模态震荡整合机制。

3学习机制

新类与噪声问题

在学习机制层面上，自动化所刘成林研究员团队提出了原型学习的思想。我们都知道卷积神经网络是通过最后的softmax层实现识别，而softmax层在转换的时候已经固定了类别的个数，因此传统模型处理的识别问题往往都是封闭问题，然而很多视觉计算问题都是开放的。

为实现开放环境下的识别，他们通过结构模型的方法，将结构模型识别与统计模型相结合，通过将softmax层替换成原型层，实现了概念发现与噪声拒识，进而实现开放环境下的理解。

连续学习

人脑往往可以实现连续学习，即人在学习一个任务以后，学习新的任务并不会降低原来任务的性能。而现有的计算机模型却不能实现这样的功能，它们在执行任务1后，再执行任务2时，会直接在任务1的参数基础上进行微调来进行训练。这样使得任务2训练好后，任务1的参数被遗忘。

如何实现连续学习呢？受哺乳动物和人类大脑固化既往获得的技能和记忆的理论启发，Deepmind引入ProgressiveNN, PathNet, EWC来达到连续学习的目标。比如针对新的任务构建网络时，保留和旧任务相关的网络，path和重要参数，实现旧的任务和新任务之间的共生，使网络具有连续学习的能力。

总结

脑科学的研究包括从分子到行为多个层面，其一直以来都是视觉计算理论与方法突破的重要创新源泉；
现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上尚存在固有缺陷，需要以脑为参照物加以对照，寻求借鉴；
向脑学习，开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。

作者简介

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。