作者 | 葛覃

编辑 | 阿文

大模型的主战场之一，卷向了多模态。

今年5月中旬，正如产业界所预料的那般，OpenAI和谷歌先后发布了大模型多模态更新。GPT-4o演示的AI语音交互接近真人，可以通过摄像头实现视觉识别，并且给出拟人化的反馈，甚至可以识别人脸的表情，辨认情绪。

谷歌基于Gemini多模态大模型打造了Project Astra人工智能助手，演示了识别地理位置，找到丢失的眼镜，检查代码等功能。

两家大厂的演示虽有惊喜，但却并不让人意外。因为在此之前，行业基本已经达成共识，仅靠大语言模型实现不了通用人工智能，多模态才是通向AGI（Artificial General Intelligence）的必经之路。

人类智能的显著特点，就是能够处理和整合来自不同感官的信息，形、声、闻、味、触，我们做决策行为时，不自觉间就考虑了多种信息。多模态能力使大模型能够模仿人类的认知模式，从而更接近人类智能的复杂性和灵活性，因此成为目前大模型发展的主要方向之一。

在华为开发者大会2024（HDC 2024）上，华为常务董事、华为云CEO张平安重磅发布了盘古大模型5.0，在全系列、多模态、强思维三个方面全新升级。其中在多模态方面，盘古5.0的多模态不仅包括文本、图片、视频，还支持雷达、红外、遥感等更多模态，盘古5.0誓要“解难题、做难事，重塑千行万业”，那这些多模态，能带来什么想象空间呢，盘古大模型又如何去破解最难的题？

盘古5.0的多模态：更多、更深

不同于OpenAI和谷歌主要将精力放在人工智能助手，华为云依旧瞄准了行业。正如张平安强调的，一直以来，华为云盘古大模型都坚定地聚焦行业，在解难题、做难事的道路上不断攻坚克难。

不同的出发点，决定了不同的动作。面向消费者的人工智能助手，是一个相对通用的场景，而在专业知识较强的领域，越是需要多模态的应用场景，反而越难落地。就像一个小学生可以轻易完成父母交代的任务，一个非医学专业的大学生无法看懂一张病理照片。

盘古大模型5.0要深入到行业，除了额外支持雷达、红外、遥感等多模态外，也需要让这些多模态能力满足不同行业的专业要求，具体来看，盘古大模型5.0能够更好更精准地理解物理世界，在图片和视频识别方面，能够支持在10K超高分辨率的图片中准确理解微小的细节内容。

这足以用于一些人眼所不能识别，或者需要专家经验才能实现的场景，比如通过卫星图片找到细微的地表变化，或者通过病理照片找到想要的病菌的数量级。

而在生成方面，盘古大模型5.0采用业界首创的STCG（Spatio Temporal Controllable Generation，可控时空生成）技术，聚焦自动驾驶、工业制造、建筑等多个行业场景，可生成更加符合物理规律的多模态内容。

以自动驾驶为例，自动驾驶最难的是各种长尾难例场景（Corner Case），过去是通过先建模后渲染的方式构造仿真数据，成本高昂，精度误差大，无法支持端到端仿真，用AI生成场景数据用于训练成为解决方案。

但是，多模态大模型生成的视频，往往在生成内容的真实性和物理规律的合理性上存在问题，例如空间多视角相机、连续时间下生成的逻辑一致性。如果没有处理好，生成的汽车将发生形变，或是因为没有很好地理解物理规律而导致生成的两辆车融合到一起。

盘古多模态大模型通过3D CGC（3D controllable generation content），可以很好地理解物理规律，生成更加真实的训练视频，以此最大限度地减少仿真与现实之间的差距，让自动驾驶模型学习到更多的人类驾驶规律，更好地应对复杂的行车环境，帮助解决自动驾驶数据集泛化生成、难例生成两大难题，最终提高自动驾驶模型训练效率。

此外，红外、雷达、遥感等技术，在众多行业应用广泛，也为大模型深入行业带来了更大的想象空间。例如，红外用于电力设备的在线检测，监测石油化工领域的高温高压设备，工业制造领域的电子组件热性能分析等；雷达可预测气象变化，以及辅助自动驾驶等；遥感的应用也十分普遍，如灾害管理、地质和采矿、搜索和救援行动等。

于产业实践的角度，多模态的能力本身就在提升安全性、效率和质量等方面发挥着重要作用，可以料想的是，华为云盘古大模型增强的多模态能力，将继续拓宽AI的认知边界，能力边界。

大模型解难题，还需要什么

解决行业难题通常需要一个系统化的方法和多方面的能力，在大模型层，仅有多模态显然不够，盘古大模型的另外两大升级，强思维和全系列，让盘古在增强五感的同时，也大大提升大脑的能力，以及对不同场景的适配性。

强思维，指的是复杂逻辑推理，盘古大模型5.0将思维链技术与策略搜索深度结合，极大地提升了数学能力、复杂任务规划能力以及工具调用能力。

每个行业甚至每个细分场景，都凝聚了一套行之有效的操作流程，例如IT行业的SOP（Standard Operating Procedure，即标准作业程序），对应着各种状况的解决方案，大模型解题也是如此，特别是严谨的数理领域，在遇到某个问题时，大模型要思考并找到最佳的处理方法，然后将方法拆解成执行步骤，再去调用相应的工具完成。

全系列，盘古大模型5.0包含不同参数规格的模型，以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用；百亿级参数的Pangu P系列，适用于低时延、高效率的推理场景；千亿级参数的Pangu U系列适用于处理复杂任务；万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。

企业的业务场景需求天然分层，有些业务要求极致的效果，有些业务要求性价比，考虑到效果和成本，一个模型打天下并不现实，盘古大模型5.0针对不同场景做优化，让企业可以平衡技术投入的ROI。

如此，华为云盘古大模型的三大升级，都可以收敛到解难题做难事的核心，多模态信息输入和输出，建立深层次的联系和协同效应，兼顾不同场景的投入产出，同时与每个行业特有的需求紧密联系起来，盘古大模型5.0，更能打开AI产业的天花板。

千行万业智能生产力再提速

在过去的一年中，盘古大模型已在30多个行业、400多个场景中落地，在政务、金融、制造、医药研发、煤矿、钢铁、铁路、自动驾驶、工业设计、建筑设计、气象等领域发挥着巨大价值，重塑千行万业。

以高铁巡检场景为例，动车巡检需要人工来实施，涉及众多检查项，工作量巨大，故障形态复杂，识别难度高，高铁场景故障样本稀缺，导致开发成本高。

这些问题不是一个大模型拿来就可以解决，即便通过数据训练和调优，如果大模型厂商不理解业务场景，或者不具解决复杂问题的综合能力，那么，大模型对于高铁故障检测的价值就不大。

知其然，也要知其所以然。在高铁巡检等场景，华为盘古大模型5.0既要做到知道问题所在，也要知晓如何解决问题。

一方面，华为云盘古铁路大模型通过三十亿图像预训练，盘古CV大模型结合行业know-how更能做到万物理解，开箱精调准确率即可达到90%以上，高于行业平均水平10个百分点。

另一方面，华为云大模型多模态融合诊断能力，是国内首创高精度故障检测技术，能对采集到的二维图片、三维点云、激光光谱等多模态数据，采用基于空间特征的匹配定位算法、二/三维融合深度学习算法、关键部件尺寸测量算法诊断，故障识别准确率可达到98%以上。

对于样本数据缺少的问题，华为云与北铁所采用了“高铁故障数据生成算法”，生成高铁场景罕见故障样本是，生成的数据再反哺于大模型，故障识别准确率可进行一步提高到99%以上。

对于类似的行业难题，华为云都有了解法。在钢铁领域，以上海宝武钢铁热轧生产线为例，每次调整生产钢板的种类和尺寸，都需要工程师重新调整7道精轧机组的300多个参数，需要耗费约5天的时间。

盘古大模型能够对最优参数进行预测，显著降低热轧生产线调优时间，并提高预测精度和钢板成材率。目前盘古大模型目前已在宝钢1880热轧生产线上线，预测精度提高5%以上，钢板成材率提升0.5%，预计每年可以多产钢板2万余吨，年收益达9000余万元。

此外，盘古大模型还应用于高炉场景，对炉温、铁水温度、硅含量等炉况进行仿真，从而辅助高炉精准控制，充分利用每一分能源，降低能源成本。

在具身智能领域，盘古大模型能够让机器人完成10步以上的复杂任务规划，并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频，让机器人更快地学习各种复杂场景。

大模型背后的全栈AI云底座

如前所述，所有行业难题的解决，都不是单一工具的能力，对于华为云而言，盘古大模型在前，云底座在后，通过AI的全栈系统性创新，打造了AI Native的云，从而服务所有大模型客户。

华为云CTO张宇昕表示，通过全栈系统性创新，能够让大模型的数据准备、训练、推理、应用实现全流程的高效率和高性能。华为云的全栈系统性创新覆盖了数据中心、云平台架构和基础设施服务，为AI开发提供AI Native的基础设施。

从最底层的算力层面看，在国内受到算力封锁的大背景下，华为云昇腾AI云服务给了世界第二种选择。

华为云贵州、内蒙古和安徽三大核心枢纽，构建了算力一张网，以此满足全国的算力需求，很大程度缓解了企业的算力焦虑。同时，昇腾AI云可以做到40天万亿参数模型训练无中断，远超业界的2.8天。集群故障恢复速度只有10分钟，远低于业界的60分钟。

据悉，昇腾AI云服务上线以来已陆续服务超过600家企业客户，全面适配行业主流的100多个大模型，以云服务的方式协助客户开发，训练，托管和应用模型，打造百模千态的黑土地。

本次大会上，华为云宣布了下一代的云基础设施CloudMatrix，将传统的以CPU为中心的主从架构，演进为多元算力对等全互联架构；并通过高速互联网络协议，将CPU、NPU、GPU 等算力资源全部互联和池化，从而把AI算力从单体算力演进到矩阵算力。

此外，针对云平台在大模型的训练和使用中存在的“内存墙”问题，华为云正式发布EMS弹性内存存储服务，基于Memory Pooling专利技术，通过显存扩展、算力卸载、以存代算等三大手段来打破内存墙。

从AI基础设施、AI算力到AI开发平台等的全栈自主创新，从盘古大模型从3.0到5.0的跃迁，包括大模型在内的全栈能力，正进一步外化成华为“解难题做难事”的依托。

从行业中来，到行业中去，技术最终要为业务服务。盘古大模型5.0最大的升级，或许不在于技术本身，而是融会贯通新技术、新场景和新需求，真正为千行万业塑造智能生产力。