中科曙光全球首发scaleX万卡超集群,多项技术突破引领AI计算新高度

   时间:2025-12-19 16:35 来源:快讯作者:冯璃月

在光合组织2025人工智能创新大会上,中科曙光正式推出全球首款大规模智能计算系统——scaleX万卡超集群,并首次以实体设备形式向公众展示。这一国产AI集群系统的亮相,标志着我国在高端智算领域取得重大突破,部分技术指标已超越国际同类产品规划中的2027年里程碑节点。

该系统采用创新的超节点架构,由16个曙光scaleX640超节点通过自主研发的scaleFabric高速网络连接而成,可部署10240块AI加速卡,总算力规模突破5EFlops。作为全球首个单机柜级640卡超节点,scaleX640通过超高密度刀片设计和浸没相变液冷技术,将单机柜算力密度提升至传统方案的20倍,同时将能源使用效率(PUE)优化至1.04的行业领先水平。

在核心网络技术方面,曙光自主研发的scaleFabric网络基于国内首款400G类InfiniBand原生RDMA网卡与交换芯片,实现了400Gb/s的超高带宽和低于1微秒的端侧通信延迟。这项突破不仅使超节点间的通信性能达到国际顶尖水平,更支持集群规模轻松扩展至10万卡以上,相较传统IB网络性能提升2.33倍,同时将网络建设成本降低30%。

系统在数据传输协同优化方面实现重大创新。通过"超级隧道"架构和AI数据加速技术,构建了从芯片级到应用级的三级协同优化体系。这种设计使存储平台能够高效应对大模型训练时万卡并发读写带来的带宽挑战,显著提升高通量AI推理的响应速度和结果精度,同时将AI加速卡资源利用率提高55%。

运维管理方面,该系统引入数字孪生技术,实现故障定位、修复等全流程可视化智能管理。智能化运维平台确保集群长期可用性达到99.99%的超高标准,智能调度引擎则具备管理万级节点、服务十万级用户的能力,支持每秒万级作业调度,为大规模AI应用提供坚实保障。

在生态兼容性方面,scaleX万卡超集群展现出强大的开放能力,支持多品牌加速卡接入,并已完成对400余款主流大模型和世界模型的适配优化。实际应用场景覆盖大模型训练、金融风控、地质能源勘探以及科学智能计算等多个领域,为不同行业的数字化转型提供算力支撑。

值得关注的是,中科曙光联合20余家AI产业链企业共同推出的"AI计算开放架构",通过共享关键共性技术能力,依托系统工程思维推动智算集群创新发展。这一架构的落地实施,将有效降低AI企业研发智算集群的技术门槛,促进产业生态协同发展。

 
 
更多>同类内容
全站最新
热门内容