得芯片者得天下。在全球范围竞争日趋激化的AI研究领域,中国的存在感正在加强。根据国际知名专利检索公司QUESTEL发布的《芯片行业专利分析及专利组合质量评估》报告指出:中国近10年芯片专利增长惊人,已成为芯片专利申请第一大国。中国企业在芯片专利数量上已逐步赶上国外老牌企业。
目前迅猛发展的人工智能,上层的应用都依赖于底层核心能力,而这个核心能力就是人工智能处理器。如果在芯片上不能突破,人工智能应用就不可能真正成功。可以说核心芯片是人工智能时代的战略制高点。
人工智能目前采用的深度学习算法,有海量的数据运算需求,对传统架构和系统提出了极大挑战。
深度学习,就是通过算法给机器设计一个神经网络。这个网络的基本特点,是模仿大脑神经元之间传递、处理信息的模式,从多个角度和层次来观察、学习、判断、决策。近年来,这种方法已应用于许多领域,比如人脸识别、语音识别等,是人工智能领域的热点研究方向之一。
华为公司与中国科学院计算技术研究所“寒武纪”项目团队共同开发的麒麟970人工智能手机芯片,首次集成NPU,将通常由多个芯片完成的传统计算、图形、图像以及数字(数位)信号处理功能集成在一块芯片内,节省空间、节约能耗,同时极大提高了运算效率。
据预测,类脑计算芯片市场将在2022年前达到千亿美元规模,其中消费终端将是最大市场,占据98.17%,其他需求包括工业检测、航空、军事与国防等领域。
在新的计算时代,核心芯片将决定基础架构和未来生态。因此,谷歌、微软、超威等全球信息技术和通信制造巨头都投入巨资,加速人工智能芯片的研发。
那么GPU的快速运算能力是如何获得的?这就要追溯到芯片最初的设计目标了。中央处理器CPU需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力,这些都使得CPU的内部结构异常复杂;而图形处理器GPU最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,所以GPU只需要进行高速运算而不需要逻辑判断。目标运算环境的区别决定了GPU与CPU不同的设计架构:
·大量缓存空间Cache,方便快速提取数据。CPU将大量访问过的数据存放在Cache中,当需要再次访问这些数据时,就不用从数据量巨大的内存中提取了,而是直接从缓存中提取。
·强大的算术运算单元ALU,可以在很短的时钟周期内完成算数计算。当今的CPU可以达到64bit双精度,执行双精度浮点源计算加法和乘法只需要1~3个时钟周期,时钟周期频率达到1.532~3gigahertz。
·复杂的逻辑控制单元,当程序含有多个分支时,它通过提供分支预测来降低延时。
·包括对比电路单元与转发电路单元在内的诸多优化电路,当一些指令依赖前面的指令结果时,它决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续指令。
·压缩缓存空间Cache,从而最大化激发内存吞吐量,可以处理超长的流水线。缓存的目的不是保存之后需要访问的数据,而是担任数据转发的角色,为线程提高服务。如果有很多线程需要访问同一个数据,缓存会合并这些访问,再去DRAM中访问数据,获取的数据将通过缓存转发给对应的线程。这种方法虽然减小了缓存,但由于需要访问内存,因而自然会带来延时效应。
·高效的算数运算单元和简化的逻辑控制单元,把串行访问拆分成多个简单的并行访问,并同时运算。例如,在CPU上约有20%的晶体管是用作计算的,而GPU上有80%的晶体管用作计算。
编辑:小黑
联系客服