打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
五期Demo Day路演回顾 | 知存科技:让AI设备无所不在


知存科技致力于开发的基于NOR Flash的存算一体化人工智能芯片,其芯片特点是能耗低、运算效率高、速度快和成本低,适用于终端设备的人工智能应用。



知存科技演讲实录


知存科技是一家刚刚成立半年的公司,今年3月份正式运营,专注于开发低功耗低成本的存算一体AI芯片。

 

人工智能目前还处于发展阶段,当前的落地的应用场景较少,没有达到社会的期望。随着人工智能算法的进步以及芯片算力的提升,未来人工智能将会出现一个更大的爆发点,会涌现更多的应用落地。

 

人工智能芯片作为人工智能的载体,被大家寄予厚望,在2020年,人工智能芯片市场预计达到千亿量级。传统芯片巨头比如arm、Intel、NVIDIA都通过自研和收购推出了数款芯片,互联网巨头比如Google、亚马逊和微软等也都正推出和开发的人工智能芯片。这个领域的创业公司就更多了,中国的几家头部公司就做得非常好。


 

人工智能依赖的算法有几大特点:这是一个很庞大和复杂的网络,有很多参数要存储,也需要完成大量的计算,这些计算当中又会产生大量数据。为了完成大量计算的过程当中,一般芯片的设计思路是将大量增加并行的运算单元,比如上千个卷积单元,需要调用的存储资源也在增大,然而存储资源一直是有限的。随着运算单元的增加,每个运算单元能够使用的存储器的带宽和大小在逐渐减小,存储器是人工智能芯片的瓶颈。

 

在很多人工智能推理运算中,90%以上的运算资源都消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。现在工业界和学术界很多人都认为存算一体化是未来的趋势。


 

存算一体化分为几种:DRAM和SSD中植入计算芯片或者逻辑计算单元,可以被叫做存内处理或者近数据计算,这种方式非常适合云端的大数据和神经网络训练等应用;另一种就是存储和计算完全结合在一起,使用存储的器件单元直接完成计算,比较适合神经网络推理类应用。我们研发的是后者这样的技术,将存储和计算结合到闪存单元中的存算一体。闪存技术已经非常成熟,商用几十年了,成本很低。

 

当前商用的神经网络非常庞大,拥有几百万到几千万的权重参数,或者推理过程中需要完成几百万到上千万个乘加法运算。传统的计算系统需要将网络权重参数存在片外的非易失性存储器中,比如NAND Flash或者NOR Flash。运算的过程中,需要把部分需要的权重参数搬运到DRAM,再把小部分参数传入到芯片中的SRAM和eDRAM中,之后导入寄存器和运算单元完成运算。神经网络运算需要大面积SRAM和eDRAM来减少片内外数据搬运和提高运算效率,但是由于片上存储成本的限制,也需要高成本高速度的DRAM来缓存片上无法容纳的权重参数和临时数据。



我们存算一体化的做法是这样的:我们的Flash存储单元本身就可以存储神经网络的权重参数,同时又可以完成和此权重相关的乘加法运算,就是将乘加法运算和存储全部融合到一个Flash单元里面。举个例子,只需要100万个Flash单元,就可以存储100万个权重参数同时并行完成100万次乘加法运算。我们做的是这样一款芯片,深度学习网络被映射到多个Flash阵列,这些Flash阵列不仅存储和深度学习网络同时完成网络的推理,这个过程不需要逻辑计算电路。这种方式的运算效率非常高,成本很低,单个Flash单元能够完成7、8 bit的乘加法运算。

 

之前我们说我们芯片有两个特点:一个是运算效率高,相比于现在基于冯诺依曼架构的深度学习芯片,大概能够提高运算效率10-50倍;另一个是产品成本低,节省了DRAM、SRAM、片上并行计算单元的面积消耗,简化了系统的设计,同时无需采用先进的芯片加工工艺,可以数倍地降低生产成本,几十倍地降低流片和研发成本。当前阶段,我们寻找的是对成本和运算效率(功耗)敏感的应用,比如终端的低功耗低成本的语音识别应用。未来,随着人工智能和物联网的发展,我们会拓展更多的应用场景,比如说低成本和低功耗的感知应用和人机交互。

 

2014年,我们开始在加州大学圣芭芭拉分校的实验室做这项技术的研发,完成过6次流片和技术验证。去年年末在北京注册的公司,今年3月份正式开始运营,仅仅5个月的时间我们就把设计送出去流片,顺利的话,过3-4个月就会完成芯片测试,争取明年量产。我们的团队毕业于北京大学、北京航空航天大学、美国加州大学洛杉矶分校,加州大学圣芭芭拉分校等学校。核心团队成员大部分都有十年以上的行业经验,团队目前有11个人,年末也会扩大团队规模。





晶体管和电容这些东西怎么在Cell做到Computing?

乘法计算的方式是通过类似模拟电路的电流镜方式。输入电流转换成电压耦合到Flash晶体管的控制栅上,Flash晶体管的输出电流等于输入电流和存储的权重相乘。加法的计算方式类似于并联电路电流求和。


怎么看待Intel新的X Point技术?

这是一项很新的技术,目前主要问题是成本和系统支持度的问题,但随着产业链的发展,成本会越来越低,速度也会更快,系统也会更好的支持X-Point兼有的高速和非易失性的特性。这项技术的selector做得很好。作为存储器、内存或者他们的统一体这类应用来说,未来成本降低之后,会有非常大的优势。Intel在这个技术的市场推广上也投入很多精力,其他后来者可能会坐享其成。


北京知存科技有限公司成立于2017年10月,专注于开发基于存算一体的人工智能芯片和系统。公司通过自主研发的核心技术将计算和存储融合在NOR Flash存储芯片中,大幅度提高运算的并行读,提升人工智能核心运算效率多个数量级。该设计方法还简化了芯片设计架构,节省了内存、缓存和神将网络加速器模块的支出,显著地降低了芯片成本。当前公司正在流片的是面向终端设备的低功耗语音识别芯片。公司将长期致力于深入研发和优化存算一体化技术,将之应用于广阔的人工智能应用场景中。


安创加速器

安创加速器(Arm Accelerator)是Arm全球唯一加速器,聚焦于人工智能和物联网产业的创新服务平台。安创一直致力于帮助技术驱动型创新创业企业精准对接生态资源、投资机构、销售渠道、宣传渠道,提供一站式深度加速服务;帮助资本市场对接最具投资潜力的创新团队,挖掘早期优质项目;帮助大企业寻找所需要的创新型项目,加速项目落地,做真正的创新引擎;帮助国外先进技术在国内落地,以及国内项目在国外渠道布局,注重国际合作与交流,推动全球创新。




本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
存算一体
我国首款超低功耗存算一体AI芯片在合肥问世
存内运算的架构、挑战和趋势
浅谈CPU,GPU,TPU,DPU,NPU,BPU
芯片内部是如何实现二进制加法运算的?原来如此简单
“存算一体”,合肥恒烁半导体冲击“冯诺依曼”计算机结构
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服