人工智能白话解说

深度学习的局限

当前的深度学习，无论是监督学习还是所谓的无监督学习，其本质都是监督学习。只是数据标签多寡的差异而已。完全不像人类婴儿从环境中零基础学习。

为什么深度学习的收敛速度这么慢？除了在视觉领域里，目前部分深度学习应用超过了人眼水平，在绝大多数应用场景下，还远逊于人的水平。针对这些问题目前似乎还没有一个有效的回答。本质上，我们还没有找到一个模拟人脑的学习方案。

NLP领域里，当前的机器翻译水平还和人的翻译能力有很大差距。最新微软出的机器翻译，据说在新闻领域的翻译已经接近人的水平，试用下来的确已经达到不错的水平，但是还有不少词不达意甚至完全相反的情况。语义理解在人工智能音箱领域，被嘲笑为“人工智障”音箱。

为什么深度学习在视觉领域比较出色，而在语音/语义应用上却还不能让人满意？为什么在新闻领域机器翻译可以做的不错，但是在其它文字翻译上却错误率高的惊人？究其根源，发现这些做的好的领域，其本质上都在做一件事情----模式识别。图像识别，因为我们有海量数据源进行训练，我们美其名曰为大数据。新闻翻译，是因为总体而言新闻类型本身比较有限，换个名字重复发生。比如，今天日本地震，明天智利地震；08年奥巴马当选总统，16年Trump入主白宫。用一个模式去套另外一个模式，照葫芦画瓢，而没有理解其本身是什么含义。

从婴儿学习说起什么是理解

刚出生的婴儿，除了自带不满意就哭，饿了喝奶这两个基本固件功能外，其它几乎没有任何功能了。然而就是这样简陋的基础固件，却能发展出各类花式能力：语言、数数、玩游戏、玩音乐、做微积分、开发人工智能。NB如牛顿、爱因斯坦的一不小心还给我们增加几门课程。这中间到底发生了什么？为啥小猫小狗就没有这些能力？就连人类近亲大猩猩也无法做到。成年大猩猩只能达到人类2，3岁智力的水平。

那么婴儿到底是如何在无监督环境下学会说话的？个人觉得其核心是多传感器的GAN系统。人类的多传感器分为五感“视觉”“听觉”“触觉”“味觉”“嗅觉”。以听觉和说话为例子，这是一个典型的GAN系统，不停的听，不停的说，发现说的不太像，再改进。那么为什么说多传感器系统是无监督学习的核心呢？因为多传感器系统，本质上形成了交叉引用标注的弱监督学习。举个例子：婴儿如何学会”妈妈“这个概念？”妈妈“这个人物，在不同的场景下交叉出现：可能和姥姥一起出现时说了一句“妈妈来了”；可能单独出现时说了一句”妈妈给你喂奶“；可能爸爸出现时说一句”妈妈马上回来了“。无论是在空域上还是时域上，”妈妈“这个音总是和”妈妈“这个人发生某种程度上的关联。而妈妈身上又有特殊的味道，某种嗅觉、味觉总是和妈妈这个人或者“妈妈”这个音发生关联，形成”音、像、味“等不同感官的交叉引用标注，用形式语言描述G(sound['mama'])=F(image[n], flavor[n], touch[n]...)。刚开始，小孩子总是先学会一个带错误的概念，”妈妈“特指它自己的妈妈，这个固定的人。但是实际上“妈妈”是一种人际关系，而不是特指某个人。在学会这个带错误的概念后，孩子又在不同场景下发现，其它小朋友也喊另外一个人妈妈，而这个人不是它的”妈妈“。发现自己的妈妈也喊另外一个人叫”妈妈“。发现”妈妈“不是指特定的人，而是一种人际间关系时，它就真正学会了”妈妈“这个词的概念。这中间发生了什么？先形成某一个带错误的概念，将带错误的概念应用到不同场景，被纠错，再将其抽象、分化成多个概念或者裁剪成一个正确的概念。（有个有意思的例子是我女儿有个好朋友小宝。在其1岁多的时候，有次一起玩，她想向我描述小宝爸爸的情况，她总是说成“小宝的叔叔”，在她概念里，小宝的爸爸是她叔叔，她又很多个叔叔，所以为了特指这个人，引用成“小宝的叔叔”。等后来有一天她给我引用“小宝的爸爸”时，我就发现她彻底掌握“爸爸”这个概念了。）这个多任务学习过程，其核心是把其它感官的数据输入同时作为某个感官输入的数据标签使用：视觉、听觉、嗅觉、味觉、触觉这些信息互相标注。同时这个大一统模型把物体识别，运动控制，语言，基础逻辑等多个任务进行合并训练，一次完成。

语言是人类智力突破性发展的根本，劳动只是其外在表现形式。

语言是自然界抽象能力发展的最高境界。如果我们把人类从自然界区分开来，那么区分的硬标准就是语言。在发展出语言之前，人类是自然界芸芸众生中的一员，一如老虎、大象：饿了进食，渴了喝水，洪荒精力来了就地来一发，老了等死。有了语言之后，人类就走向了上帝之路，一路狂飙。我们可以想象古人类的语言一定是苍白无力的“老虎，那边”，“那边”这个词应该还是手部动作示意；“蜂蜜，很多”，“很多”这个词估计也是手部动作示意：）但是古人类一旦形成原始语言后，基于语言描述的分工合作形成一个类似GAN的训练网络，不断的进行优化。语言描述不准确，没打到猎，LOSS函数是饿肚子，争吵改进描述，接着打猎：）随着语言在不同场景的应用，概念不断细化，描述更加精确，形成一个自下而上的抽象机制。刚开始是”你去打兔子“，”你去打野鸡“；到后来”你去打猎“，”你去采摘果子“。把”兔子“和“野鸡”抽象成“猎物”，这是一个从具象到抽象的飞跃。我想此时人脑内应该进行了一个神经网络结构的调整。这并不是说我们大脑的物理结构发生了变化，而是脑神经网络的逻辑结构发生了变化，多了一个抽象层。同时因为语言能力的发展，用语言对感官的输入数据有了更多的精确标签，“这个做的不对”，“这个做的很好”，LOSS函数输出更精准。伴随语言的发展，基于语言的教育也产生了，相当于在抽象层做GAN训练，自我强化，而不再单单依赖于环境输入。

再来探讨一下什么是”理解“和”自我意识“

我们对事物的”理解“，不过是真实客观世界在不同个体主观经验坐标系上的投影而已。同样是一块树根，在老妇眼里它是柴火，在木匠眼里它是做板凳的好材料，而在根雕大师眼里就是艺术品。所谓盲人摸象也是如此。而科学最大的好处是，我们可以建立一个一致的坐标系来描述一些客观事物，从而解决个体经验不一致导致的无效、低效的交流问题。你永远无法讨论清楚猪肉到底是美味，还是人间罪恶；但是可以轻而易举的形成地球是圆的，光速30万公里每秒这些共识。

自我意识：自我意识是个体形成抽象能力后对环境客体进行区别的意识。我把意识的定义为，个体对客体的主动反馈能力。原始生物，只是在环境中被动的等待营养元素经过。到动物出现，开始有意识的进行捕猎。再到比较高级的哺乳动物会进行社会化合作捕猎。其意识从无到有，从弱到强。但是其是否具有自我意识，还有待考证。而人类具备了抽象思维能力（尤其是语言）后，其自我意识就具备了。我相信一个还不具备任何语言交互能力的婴儿是不会有高级的自我意识（此处语言非特指可双向交流语言，也包含幼儿自己发出的有强相关但他人无法理解的声音，主要用于代表其具有抽象能力）。

模拟信号和数字信号

现在的深度学习模型是先建立一个固定层数和固定每层神经元数目的网络，然后训练优化参数，这中间的神经网络结构是固定的。而人类的学习过程总似乎不总是这样，而是先形成一个具象的概念，再形成一个抽象的概念，从具象到抽象的过程，除了调整神经元的权重参数外，我们还在不停的调整神经网络架构。我们目前的图像识别和机器翻译，本质上还是处于模拟信号时代，只是一个增强版的模式匹配，而人类真正的能力是抽象后的基于数字信号的行为决策。投篮是一个典型的模拟信号决策，投高了，低一点再试一下；投重了，轻点再试一下；偏右了，往左试试。而碰到需要过河的情况，采用游泳还是绕路从桥上过这是典型的基于数字信号的逻辑决策。目前的机器翻译是模式识别，同样一个单词Apple，看到上下文有Farmer字样或者Tree字样就翻译成水果的苹果。碰到有以前的死对头Microsoft的字样就翻译成苹果公司。如果恰巧是Microsoft买了Apple做公司福利，翻译成买了苹果公司，那就贻笑大方了。其本质还是贝叶斯派。

同样以无人驾驶为例，目前的无人驾驶车在装备了如此多的传感器后（GPS, LIDAR, Camera, Radar），其可靠性大概还不及老司机水平。人们最担心的是它的黑箱系统，一个End to End训练出来的系统，不能显式的说明控制策略，即使其平均事故率低于人类平均水平，但是大家可能还是不敢乘坐。而如果一个自动驾驶汽车，所有的逻辑决策如老司机一般，能显式的说明情况，比如现在下雨，车速减慢。前方有车打双跳灯，刹车减速等。有人会反驳说意外情况枚举不完，确实如此，而我们人类就能枚举完所有情况吗？碰到意外情况，先停下来再求援也是个很好的方案。如果一辆无人驾驶车能对所有可得的训练数据做出显式判断后做出驾驶决策，并安全到达。我想大家对其担心就会少很多，甚至更信任。更明确的说就是，不要用模式匹配方案来开车，而是用逻辑来开车。

通用人工智能突破点在哪里？

回过头来看，为什么目前的神经网络训练速度慢？需要迭代成千上万遍才能进行收敛？还经常陷入局部最优解或者过拟合？我觉得采用多传感器的多任务系统神经网络，才能真正脱离手工标签，而进行完全意义上的无监督学习。而用多任务同步激活，互相标注，可以极大的加快学习速度，因为一个任何一个数据可能有多个传感器值进行模糊标注。训练速度优化，过拟合等问题的解决说不定也隐藏于这个多任务学习系统中。

外星人政治观点

当官的！

想当好官，得听取各方意见！

要听领导的、也要听平民百姓的、也可以听听外星人另类的观点！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。