打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
端侧 AI

以下来自读者大佬刘延总:

手机端侧AI LLM的一些共识与非共识


1、端侧LLM性能瓶颈,不是算力,而是内存速度。
-每生成一个token需要把模型在内存中读出一遍,10-15tops算力即可实现7b 10token/s以上的推理速度,功耗也远低于手游,所以无需担心H端侧。
-目前手机最快大概也就是LPDDR5T,9600MT/S,折合76.8 GB/s,理论最高能实现7b int4 下20 token/s,或14b int4下10token/s的输出。
-存量手机大多内存带宽在40-60GB/s。

2、端侧LLM落地,最大阻碍不是技术能力,是机制。(可能国内是机制,全球来看是手机和应用的生态博弈)
-云端可拦截不合规的胡说八道内容,端侧不能,因此国内手机厂商端侧落地的大模型都不是AGI类,而是文本总结、图像修复类。

3、端侧AI应用,最大阻碍也不是技术能力,是交互——云端也一样
-LLM的交互机制需要文字输入,目前绝大多数手机用户唯一能用到文字输入的地方是评论区骂街,连自己意思都表达不清楚,更别说跟LLM交互。

4、端侧LLM各家技术上不存在绝对的领先落后。
-苹果的3b并非某些测评中表现的那么好,例如,其在MMLU四选一测试中成功的模拟了瞎几把选的概率。
但不重要,从国内技术追赶速度来看,训好一个端侧LLM大约也就是一年左右时间。
国内HMOV都有训好的7b规格的模型,至少从MMLU来看,比苹果强不少,端侧放开可直接上。

5、最大的硬件拉动可能还是DRAM

-更多的离线计算转为实时计算,更复杂的长推理任务,甚至更多的 agent 并行。更不用说模型本身的不断膨胀。当然苹果发表过 LLM in a flash,尽量优化内存的占用,但优化出来的空间一定会被很多的负载吃掉。


因此,这些是苹果LLM的意义所在。而之前三星和Google的Gemini是弱弱联合,毫无影响力。
1、苹果的端侧LLM有望推动机制进化。
2、苹果不管是交互的改进, 还是对用户心智的影响,目前还是独一档的。
3、苹果有望带动用户用LLM。

(完)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
苹果这篇“魔改”闪存的论文,暴露了它想彻底掌控大模型的野心
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
LLMs:《Better & Faster Large Language Models via Multi-token Prediction》翻译与解读
关于大语言模型的11个应用方向和16个挑战总结:来自来自伦敦大学、MetaAI等机构合作的688篇参考文献与业界实践
史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服