中科曙光发布百万卡AI超集群
2025-09-08
来源:极客网
9月8日消息,近日,中科曙光正式发布了国内首个基于AI计算开放架构设计的曙光AI超集群系统。这一系统以GPU为核心,实现了算力、存储、网络、供电、冷却、管理与软件的一体化紧耦合设计,旨在为万亿参数大模型训练、行业模型微调、多模态开发及AI4S等场景提供底层算力支持。其最大亮点在于支持百万卡级别的集群扩展能力,并强调硬件与软件生态的开放性,引发行业对算力垄断格局可能被打破的讨论。
从技术架构来看,曙光AI超集群表现出显著性能优势。单机柜支持96张GPU卡,总算力达百P级,内存带宽超过180TB/s,支持多精度与混合精度运算。在实际应用中,千卡集群的大模型训练推理性能达业界主流水平的2.3倍,开发效率提升4倍,人天投入减少70%。其通过存算传协同技术将GPU计算效率提升55%,并采用冷板液冷与394项节能设计,使PUE低于1.12,在能效方面也处于行业领先水平。
更重要的是,该系统在可靠性与开放性上实现双重突破。121项可靠性设计使平均无故障时间提高2.1倍,平均故障修复时间降低47%,支持超30天长稳运行与百万级部件故障的秒级隔离。而开放架构则支持多品牌AI加速卡,兼容CUDA等主流软件生态,不仅降低用户的硬件采购与软件开发成本,也有助于保护已有投资,避免被单一技术路线绑定。
从行业现状来看,全球AI算力市场目前仍由少数企业主导,尤其在高端加速卡与底层软件生态方面存在较高的技术壁垒和商业垄断。曙光AI超集群所倡导的开放路径,在一定程度上可促进硬件异构兼容与软件生态互通,为更多企业提供替代方案,有助于构建多元化的算力供应体系。
然而,能否真正“打破垄断”,仍需客观看待其面临的挑战。一方面,现有主流生态已形成较强的用户黏性与开发生态,新架构需在工具链、性能调优、社区支持等方面持续投入;另一方面,开放架构虽然降低准入门槛,但如何在规模部署中保持稳定性与兼容性,仍需经过大规模应用验证。
总体而言,曙光AI超集群的发布是中国在高端AI算力基础设施领域的一次重要进展,其开放架构理念为行业提供了新的发展思路。但从技术到市场、从生态到服务,能否真正改变现有算力格局,仍需产业各方共同推动与时间检验。在AI竞争日益激烈的全球背景下,开放合作与自主创新并重,或许是构建可持续算力未来的更优路径。

