端侧 AI

以下来自读者大佬刘延总：

手机端侧AI LLM的一些共识与非共识

1、端侧LLM性能瓶颈，不是算力，而是内存速度。
-每生成一个token需要把模型在内存中读出一遍，10-15tops算力即可实现7b 10token/s以上的推理速度，功耗也远低于手游，所以无需担心H端侧。
-目前手机最快大概也就是LPDDR5T，9600MT/S，折合76.8 GB/s，理论最高能实现7b int4 下20 token/s，或14b int4下10token/s的输出。
-存量手机大多内存带宽在40-60GB/s。

2、端侧LLM落地，最大阻碍不是技术能力，是机制。（可能国内是机制，全球来看是手机和应用的生态博弈）
-云端可拦截不合规的胡说八道内容，端侧不能，因此国内手机厂商端侧落地的大模型都不是AGI类，而是文本总结、图像修复类。

3、端侧AI应用，最大阻碍也不是技术能力，是交互——云端也一样
-LLM的交互机制需要文字输入，目前绝大多数手机用户唯一能用到文字输入的地方是评论区骂街，连自己意思都表达不清楚，更别说跟LLM交互。

4、端侧LLM各家技术上不存在绝对的领先落后。
-苹果的3b并非某些测评中表现的那么好，例如，其在MMLU四选一测试中成功的模拟了瞎几把选的概率。
但不重要，从国内技术追赶速度来看，训好一个端侧LLM大约也就是一年左右时间。
国内HMOV都有训好的7b规格的模型，至少从MMLU来看，比苹果强不少，端侧放开可直接上。

5、最大的硬件拉动可能还是DRAM

-更多的离线计算转为实时计算，更复杂的长推理任务，甚至更多的 agent 并行。更不用说模型本身的不断膨胀。当然苹果发表过 LLM in a flash，尽量优化内存的占用，但优化出来的空间一定会被很多的负载吃掉。

因此，这些是苹果LLM的意义所在。而之前三星和Google的Gemini是弱弱联合，毫无影响力。
1、苹果的端侧LLM有望推动机制进化。
2、苹果不管是交互的改进，还是对用户心智的影响，目前还是独一档的。
3、苹果有望带动用户用LLM。

（完）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。