Arm Lumex计算子系统平台:端侧AI异构计算新范式,3纳米工艺下的智能新引擎

   时间:2025-09-13 22:58 来源:ITBEAR作者:赵云飞

在近期举办的Arm Unlocked 2025峰会上,全球半导体IP领域领军企业Arm正式推出面向旗舰智能手机及下一代个人电脑的Arm Lumex计算子系统(CSS)平台。该平台通过集成第二代可伸缩矩阵扩展(SME2)技术,为消费电子设备构建了端侧AI计算的全新架构,标志着移动计算领域向智能化、高效化迈出关键一步。

作为平台核心,C1 CPU集群首次将SME2技术深度融入Armv9.3架构,实现了AI性能五倍提升与能效三倍优化的突破。该技术通过动态矩阵扩展单元,使CPU在处理语音识别、实时翻译等低延迟AI任务时,效率远超传统NPU架构。测试数据显示,基于Whisper Base模型的语音处理延迟降低4.7倍,Google Gemma 3模型交互性能提升4.7倍,音频生成速度提高2.8倍。这种性能跃升源于SME2为CPU额外提供的2-6 TOPS算力,有效解决了内存带宽瓶颈问题。

为满足不同市场层级需求,C1系列推出四款差异化核心:旗舰级C1-Ultra单线程性能较前代提升25%,延续Arm连续六年两位数IPC增长的记录;次旗舰C1-Premium在保持SPEC测试性能的同时,核心面积缩减35%;能效导向的C1-Pro在日常应用中实现16%持续性能提升与12%能效优化;超低功耗的C1-Nano则将能效提升26%,面积缩小2%,特别适配可穿戴设备。所有核心均可通过优化后的C1-DSU单元灵活组合,最多支持14核集群,功耗较前代降低26%。

图形处理领域,Mali G1-Ultra GPU通过三大技术突破重塑移动体验。第二代光线追踪单元(RTUv2)实现性能翻倍,采用单光线模型与独立电源域设计,在《暗区突围》《原神》等游戏中带来25%-26%的性能提升,硬件光追帧率提升40%。AI加速方面,新增的FP16矩阵乘法指令使语义分割、物体检测等任务推理速度提升20%-104%。架构创新包括双堆叠着色器核心、快速统一寄存器访问等设计,配合Arm图像区域依赖调度技术,显著提升复杂场景渲染效率。

为构建完整技术生态,Arm同步推出Mali G1系列GPU,提供1-24个着色器核心的灵活配置方案。该系列支持基于块的硬件计数器与RenderDoc调试工具,集成精锐超级分辨率技术(ASR),可在虚幻引擎5中实现时域超分处理。更值得关注的是,Arm宣布2026年将在GPU中引入神经技术模块,通过专用硬件加速超级采样与降噪任务,延续桌面级GPU从通用渲染到专用加速的演进路径。

软件生态层面,KleidiAI软件库成为打通硬件创新与应用落地的关键桥梁。该免费库深度集成PyTorch ExecuTorch、Google LiteRT等主流AI框架,开发者无需修改代码即可自动调用SME2加速能力。目前KleidiAI在Arm设备上的安装量已突破80亿次,安卓平台通过XNNPack库实现加速,Windows on Arm则依托ONNX Runtime框架优化Copilot等核心应用。这种"一次开发,多端加速"的模式,有效解决了新硬件推广的生态适配难题。

从异构计算架构重构到3纳米工艺优化,从硬件性能突破到软件生态赋能,Arm Lumex CSS平台展现了半导体IP供应商向系统级解决方案转型的战略决心。通过预验证的计算子系统交付模式,该平台帮助合作伙伴将产品上市周期缩短30%以上,同时为桌面级移动游戏、实时AI助手等创新应用提供了性能保障。随着端侧AI需求持续爆发,这一平台有望成为下一代智能设备的核心基础设施。

 
 
更多>同类内容
全站最新
热门内容