通用人工智能技术综述（五）

Original AGI联盟吴博士通用人工智能联盟

大家好，今天我们继续分享通用人工智能（AGI）技术的原创综述，该简短的综述将系统性地梳理目前的AGI发展状态和现状，并前沿性收纳最具有推动力的成果，可以作为该领域的入门参考资料。本分享持续五期，以往的链接在这里：

通用人工智能技术综述（一）主要介绍了AGI的定义及领域，国内外研究机构及现状，多模态感知，世界模型，通用特征抽取方法；

通用人工智能技术综述（二）主要介绍了认知架构及其演进，包括认知系统的组成结构，认知过程，记忆结构，基于神经网络的认知结构；

通用人工智能技术综述（三）主要介绍了基于大模型的认知技术，包括与人类的认知能力对比，大模型在多步逻辑推理、代码生成、机器人任务等方面的典型作品；

通用人工智能技术综述（四）主要介绍了学习机制，包括好奇心、在线/持续学习、神经归纳逻辑编程、模仿学习、仿生学习等内容。

本期首先先介绍通用人工智能的评测方法，之后进行AGI的总结和展望。

注：本文为PPT＋讲稿形态，建议采用计算机而非手机显示观看，讲稿位于所解释的PPT的上方，此稿有部分为个人观点，有不够严谨之处敬请谅解。

那我们就开始吧~

在这一部分我们主要解决两个科学问题，第一是通用人工智能的定义，第二是通用人工智能的评估基准。

我们重新评估一下如何衡量智能，在Chollet发表的《On the Measure of Intelligence》这篇论文中，智能被定义为学习者在涉及不确定性和适配性的新任务中，将原先的经验和先验转化为新技能的效率，我们可以简单的将其观点概括为智能被度量成技能的获取效率，也可以认为度量成达到期望的技能程度所需的最少新任务经历，当然这个度量需要基于明确的任务域、先验，和目标任务的技能门限，其中，技能门限可以理解为在新任务下的完成能力是有限度的就可以，比如只需要达到90%正确。

一个简单的理解是，将达到期望的技能程度所需的最小新任务案例，表现了在迁移学习的时候需要的新任务的样本数量，或者与环境交互的时间，这个时间或者样本数量越少，那么技能获取效率越高。我们可以从GPT-3以及其衍生版本观察到这样一个现象，即他只需要新任务的few shot，甚至zero shot的一个设定就可以完成这样一个任务，因此他的技能获取效率是相对比较高的，而传统的一些方法需要在新任务上进行fine tune，甚至海量训练，那么他的智能程度就相应弱一些，其形象化的比喻如左图显示，即在已知的场景下训练的一个系统，然后，衡量在多大范围内的未知场景可以使用，即右侧两图所呈现出来的可以运行的一个区域，可以运行的区域越大，就证明了这个系统智能化的程度越高，即只需要少量的已知区域，就可以覆盖更多的未知区域。

这种度量具有以下几个特点，首先，他需要一个范围,即定义好的一个任务域，这个任务域，即迁移的这个新的任务组成的集合，另外它要在新任务下衡量，而不是在训练过的已知的任务下衡量，因为他强调的是泛化能力，而且是广义的泛化能力。另外，他需要用更少的数据样本或者经历，来显现出更高的智能，也就是说不能用大量的数据训练换取智能，因为他认为智能不是海量的数据换出来的，而是一种能力，因此他更强调小样本甚至零样本。

其次在量化泛化的困难度上，分为局部泛化和广泛化以及通用泛化，上述介绍的在已知区域内训练，并在已知的，这些任务场景内验证，属于局部泛化，而强调的泛化性更多的是广泛化和通用泛化，即未知任务下的处理能力。

第三，是要达到一个技能的基础门限，那也就是说要解决好这个新任务，不一定是百分之百解决，可能解决到95%，就足够了，那么可以以这个为门限进行测量。

最后是先验知识的需求，先验就是这个被评测系统需要被预先设定好的知识或技能，较少的先验就像定理中较少的公理一样，可以证明这个系统使用的先验更少，也就是这个系统的灵活度或者说可适配的可能性越强，且不需要提前告诉太多的信息，这样的系统是更智能的，因此用较少的先验更智能，而且参评者要给出到底使用了哪些先验。且这些先验最好是类似人类的初始常识的，例如高低、大小、好坏的概念。那么这篇论文所阐述的，以泛化性为中心的智能度量就显著革新了智能的现有的评测方式，现有的在某个任务下的数据级的性能通常是强调该任务内所体现出来的能力，而不是其在新环境，新任务上的适配能力，因此，智能的度量，就从局部范化扩展到广义范化和通用范化。

我们以ARC dataset 为例，介绍泛化性的基准数据集，这个数据集在感知方面做了极度的简化，基本上是以颜色块和网格作为基础的，从而可以突出逻辑思维和规则发现的过程。它的任务比较多，但每个任务只提供了若干样本，样本数量一般小于4，因此它没有办法做太多的训练，更多的需要先验的知识才容易求解。

如下面最左边的这个例子，大家可以先做做看，看是否能找到规律。看完这三个例子，数据集会给出一个左侧图，让智能体作答右侧图的形状。作答这个例子，需要观察方块的颜色，位置，并具有拓扑展开的概念。其它几个例子诸位有兴趣可以自行尝试一下，你会发现我们在观察这些图形的时候充分的借鉴了先验知识以及归纳逻辑，从中发现相应的规律，而现代的计算机深度学习，较难发现，其中的上述规律，因此很难得到一个高的测试分数。这个数据集的特点，主要以任务多样本少，推理性强和先验多为特点，也就进一步的强化了泛化性的测量。

在另一方面，大语言模型近年来发展迅速，也催生了一系列的评估手段，如Big Bench，这个数据集集成了204个语言任务，并且在不断扩展，它涵盖了各种各样的topic以及各种语言如下图所示，主要用于评估Zero/few-shot设定下语言模型的能力，这是所测量的能力范围及相应的任务数量，可见他可以测量像Logical Reasoning、Common Sense、编程阅读理解数学等大量的智能特性。

其次在数学常识推理上，也具有着相应的数据集，如Grade School Math，这个数据集具有多样化的一些小学数学组成的一些数学问题，一般需要类似这个案例中的两到八个计算步骤才能解决，此外，Common Sense QA是以一个常识为中心的数据集，包含了一万多个例子，它主要是基于预先学习的先验知识，回答在一些给定的相关的上下文中的问题，如下例所示，这个问题是：在一个晴天，河水上你如何才能够将一个杯子立着放并且获取到水？那么我们就从下面几种常识中，推测出是瀑布。

此外在推理逻辑上，还具有如下的一些测评数据集可用，例如ParaRules用于做推理规则，Common2Sense 用来判断逻辑一致性，StrategyQA 用来判断隐式逐步推理，LogicQA 是由我们中国国家公务员考试提取出来的逻辑题，AR-LSAT 是分析逻辑推理。

对于常识部分也具有Proto QA，CLUTRR，CODH，RICA，PIQA，TIMEDIAL，RECLOR等一些数据题。

在一些数学及定理证明上，还具有像SVAMP，MATH，IsarStep，HOList 等等数据集。

上述是有关评测方面的信息。下面，我们对AGI技术的整体特点进行概览，展望和总结。

AGI系统是一个复杂的多层级系统，我们可以从如下的角度来整理并且概括它，首先，它具有着一些应用目标，比如说，传感和转换、创意、智能体控制、大脑机制理解等，其行为层主要包括在线学习，终生、持续学习，主动学习，泛化能力等等行为。

这些高层次行为，需要被一个认知架构所支撑，这个认知架构就包含了感知部分，记忆部分，心智控制部分，以及推理和输出，其中感知包括了多模态的信息处理，视觉、语言、声音的提取，世界模型的同步更新，特征抽取，感知物理常识等等内容，

另外一大部分是记忆，它包括了长期和短期记忆，长期记忆又包括声明式的情境记忆，语义记忆，而非声明式的又包括了过程性记忆、感知到特征的记忆等，短期记忆包括了工作记忆。此外，具体实现方案上，有一些仿记忆的人工记忆形态，包括，深度神经计算机（DNC），Token Turning Machines，Transformer，记忆增强网络等等。此外，我们也需要研究记忆的读写机制以及遗忘机制、温习机制等，在控制方面，智能体需要具备包括好奇心、兴趣、自我意识，情感、专注等内容，在推理和学习方面需要具备逻辑推理、学习、规划、策略搜索等能力，此外也具有一些输出能力。综上的AGI系统具有感知、记忆、控制、推理，执行等认知能力，并具有智能行为及应用。

在网络构建层级上，AGI系统还具有着多种网络形态，如人工的神经网络形态及类脑的模型形态，这些网络是通过相关的构筑模块构建的。在微观学习机制上，包括以反向传播微代表的全局学习，及以可塑性机制和本地学习机制为代表的仿生学习。此外，也具有着迁移学习、元学习、强化学习、模仿学习、反绎学习、神经归纳逻辑编程等学习机制。此外，AGI还具有基于多任务和广义泛化为基础的评估体系。综上，AGI系统具有多种神经网络模型结构及构筑模块，多样化的学习机理，具有基于泛化的评估方法。

最后，我们展望一下AGI的趋势与未来。通用人工智能系统架构到底如何实现，通用人工智能时代什么时候能到来呢？目前最有可能的AGI路径在哪里？有没有国际上的一个认可的发展思路？

在这方面，我们需要重点提一下基础模型（foundation model），其详细的综述可以参考斯坦福大学100多位专家联合编写的综述论文《On the Opportunities and Risks of Foundation Models》，论文写的非常详细，阐述了基础模型的概念、能力（如语言、视觉、机器人操纵、推理、人类互动等方面）、技术原理（如模型架构、训练、数据、系统、安全、评估、理论），应用和社会影响。提出这样的模型会由于其同质性（可理解为统一处理方式）而具有的新生能力（emergent properties），即原本的单任务模型不会具有的能力。综上原因，结合当前大模型在业界的影响力和实现SOTA的能力，我们认为收敛于基础模型可能是目前的主要趋势，是AGI的强力催化剂。

举个例子，来自微软亚洲研究院的MetaLM是基础模型的一个实现，它是一种通用目的接口模型，它本身是一个准因果transformer结构（单方向因果解码器，但可以接入多个双向非因果编码器），可以用于接入各个大模型并进行进一步的融合，适用于各类自然语言处理、多模态处理等任务。

超越基础模型的另一个点是大模型本身在精确计算、精确知识问答上还具有着显著不足，因此需要给它配备一个精确知识计算引擎，Wolfram|Alpha就是一个基于符号表达和精确计算语言构建的计算系统，可以显著改善ChatGPT这样的大模型算不对数学题等带有精确数值逻辑的问题，可以认为统计方法与符号方法的结合是未来的可行演进方向。

此外，超越基础模型结构，我们还需要很多额外的努力用于更好的理解世界、记忆和模仿，例如我们以前介绍过的一些例子，大模型与记忆的结合（Token Turning Machines），大模型与增强学习的结合（SayCan），世界模型与增强学习的结合（DreamerV3），基于增强学习的模仿学习（Gato）等方法是AGI的非常具有竞争力的架构参考。

我们也可以从生物脑为出发，看看还有哪些内容是当前技术尚未涉及到的，例如人脑的几大组件，大体的分工为：额叶（frontal lobe）：主要负责高级运动中枢，前额叶：新近记忆，信息整合。顶叶（parietal lobe）：主要负责高级感觉中枢，身体知觉。颞叶（temporal lobe）：主要负责听觉嗅觉，面部识别，情感。枕叶（occipital lobe）：主要负责高级视觉。小脑（cerebellum）：主要负责运动协调。脑干（Brain stem）：主要负责身体控制功能。强智能分析资源站LifeArchitect.ai的创建者Alan博士认为：尚未有充分进展的地方包括顶叶，即多脑区之间的综合信息处理。其次是枕叶、小脑和前额叶的复杂策略规划这几部分，而发展较为良好的包括前额叶，颞叶和脑干的相关功能。当前，笔者认为这个思路很有趣，但对当前的情况概括并不是非常准确全面的。

另外，还有很多复杂的人类心智行为体现并没有被囊括在内，包括但不限于如下一些方面：沉思，它可能与长程控制、世界模型、情景记忆、逻辑认知的协同工作有关；自我意识可能与长程控制、世界模型、逻辑认知有关；目的、意图与好奇心、长程控制（注意力）、逻辑认知有关；意志、欲望、兴趣与长程控制、逻辑认知有关；智能体还会具有情绪和感受，这与神经调制（如多巴胺）、长程控制（主要指状态调节）有关；类似的调节还可以形成宏观决策的调控力，例如更有勇气的做事情等等。在这些案例中，长程控制和神经调制具有较为重要的作用。

综上，我们推荐基于神经网络的AGI架构如下，首先，它是一种结合了大模型和强规则系统的一类AGI模型，其中大语言模型可以实现有经验的有想象力的逻辑推理和创造，但其上下文关联的能力是有限的，因为它具有固定的context window，另外，它的不稳定性和意识流的特性仍然存在，因此需要构建一个长程控制系统，实现有约束力的，有规则约束力的，能够形成深度的思考，稳定和长程的一个约束结构，它不需要非常灵活，但是它需要实现这种长程的，稳定性的深度思考，或者说是一个控制逻辑，并且具备类似于神经调制的宏观状态调控能力。

在此为基础，通过融合世界模型，接纳非结构化数据的感知，同时通过记忆模型，记忆相应的智能体的历史经验和新的一些知识规则，并可以通过对外的数据互通，精确的指令控制，及与人的沟通，实现对客观世界的交互和输出。在学习机制上，需要综合利用超大规模数据预训练、增强学习、持续学习、仿生学习以及模仿学习等多种学习机制，构建一个具有终生学习能力的开放式系统，并实现智能体与外界环境的闭环与紧密交互，从而实现较为综合理想的AGI系统。

以上就是通用人工智能综述的全部分享内容

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。