AI时代:CPU与GPU的主角之争才刚刚开始
2026-06-21
来源:中科曙光
编者按:当GPU在大模型训练领域风头正劲时,CPU阵营发起了一场底气十足的反击。中科曙光新一代高性能计算平台的发布,让“谁才是AI时代算力核心”的争论再次升温。“AI时代是GPU的天下,CPU将被边缘化”——这句话在过去两年几乎成为行业共识。英伟达股价飙升、大模型训练集群动辄上万张GPU,似乎都在印证这一判断。然而,CPU阵营并不打算就此退场。
2026年6月15日,中科曙光发布新一代通用高性能计算平台,搭载国产百核级512线程通用CPU,单芯片FP64双精度算力达到10T,整体规格首次达到国际厂商旗舰级水平。紧接着,英特尔在COMPUTEX 2026上高调宣称“CPU重回现代AI基础设施的中心”,推出至强6+处理器,释放出强烈的反击信号。
CPU究竟凭什么在GPU当道的AI时代夺回主导地位?这并非简单的行业口水仗,而是一场由AI应用场景演进驱动的算力体系深层变革。
“精度”——不可替代的护城河
GPU在AI训练中的优势毋庸置疑——大规模并行计算能力天然适配矩阵运算。但AI产业正从“训练驱动”转向“推理与落地驱动”,这一转变从根本上改变了算力需求结构。
在科学与工程计算领域,CPU拥有GPU难以撼动的“护城河”:双精度浮点运算精度。
东南大学物理学院副教授李强在科研实践中深有体会:“材料模拟要求双精度起步,GPU在这方面反而是短板。原子之间相互作用很强,无法独立计算,对内存交互要求极高——从几十个原子到上千个原子,内存需求翻了十倍不止,这些恰恰是CPU擅长的。”除此之外,在物理模型数值解析解、稀疏模型、小型计算体系等场景中,CPU适配性更好,软件迁移基本零成本、使用便捷。同时AI for Science的底层支撑数据,大多来自CPU运行的第一性原理计算,仪器观测数据、测序数据的清洗、对齐、预处理、差值运算等工作,均依赖CPU完成,AI的发展反而进一步增加了CPU的使用需求。
中科曙光新一代平台正是瞄准这一需求。其搭载的CPU单芯片FP64双精度算力达10T,HPL双精度浮点性能较上一代提升近2倍,访存性能提升近1倍。在气象预报领域,该平台可将分辨率从3公里提升到1公里,1小时内完成全国范围36小时时效的预报;工业仿真实测性能达到上一代的1.86倍。
当AI进入需要“算得准”而非仅仅是“算得快”的场景时,CPU的价值被重新发现。
从训练到推理,CPU权重悄然攀升
AI算力投入正经历从“重训练”到“重推理”的根本性转变。
过去,企业AI投入集中在模型研发阶段,海量并行计算让GPU成为绝对主力,CPU在集群中CPU:GPU配比一度低至1:8。但如今,企业纷纷从AI“实验阶段”走向“落地部署”,推理成为算力支出核心。
推理与训练的算力逻辑截然不同。推理过程中,数据编排与管理对CPU有极强依赖——用户请求处理、数据清洗、格式转换等环节,CPU占比普遍超过60%,在多个场景下达到100%。
更重要的是Agentic AI(智能体AI)的崛起。当AI从“问答式”转向“任务式”,多智能体调度、工具调用、长上下文管理均成为CPU密集型负载。英特尔数据中心集团技术总监杨锦文透露:“随着生成式AI的需求,CPU和GPU的配比从传统的1:8,慢慢变成1:4、1:2甚至1:1,在强化学习场景中甚至反过来。”国内AI集群CPU:GPU配比已从往年的1:8快速升至1:2,头部智能体项目逐步向1:1靠拢。
中国科学院计算机网络信息中心高性能计算技术与应用发展部主任 金钟认为,AI时代算力呈现全精度发展趋势(双精度、单精度、半精度、INT8、INT4等),在该背景下,CPU是超算系统的核心大脑,具备不可替代的管控与基础计算价值。
一方面,同构超算体系以CPU为核心,典型代表为全球TOP500排名第七的日本富乐超算,采用ARM架构纯CPU同构体系,其承载的九大战略应用领域,均以科学计算为核心基础,完全依托CPU支撑运行。
另一方面,主流的CPU+GPU异构超算体系中,GPU算力占比可达99%以上,仅承担加速计算工作;而CPU全权负责计算任务分配、流程编排、数据流调度、整体任务串联与系统管控,是异构超算有序运行的核心根基,不可或缺。
因此,GPU依旧是密集浮点运算的核心,但CPU正在从“配角”走向“指挥中枢”。
中科曙光的底气:零迁移成本
中科曙光此次发布的新平台,最有价值的突破不在硬件层面,而在软件生态。
高性能计算行业最难迁移的不是硬件,而是数十年积累形成的软件体系与工程流程。工业仿真、材料计算、生物计算等领域的应用软件经过长期深度优化,迁移与重构成本极高。
中科曙光选择了一条务实路径:原生兼容x86生态。
该平台是国内首个原生支持AVX-512指令集的国产通用计算平台。AVX-512已是全球HPC软件生态的事实标准,GROMACS、NAMD等核心科学计算套件均深度绑定其加速路径。
这意味着现有HPC软件无需重新编译或修改源码即可直接运行,用户软件授权、业务流程、工程经验全部保留,实现“零迁移成本”。
在国产化替代浪潮中,这一策略意义深远——它直接解决了“迁移成本高于性能收益”这一核心痛点。
“零迁移成本”策略与英特尔x86生态战略异曲同工,两者在方法论上形成呼应。IDC预测到2030年,全球在网运行的服务器中80%仍将是x86架构,这一庞大生态基础成为CPU阵营最坚固的防线。
系统级能力:超越单一芯片的竞争
中科曙光高级副总裁李斌强调,未来算力产业竞争“不只是单点硬件突破,而是从芯片、系统、平台到应用的全链路协同创新”。
单纯比拼芯片算力已不足以赢得市场,系统级整合能力成为关键胜负手。
中科曙光新一代平台展示了这一思路:计算层引入BurstBuffer缓存加速与SocketDirect通信优化;网络层基于自研scaleFabric高速交换机,端到端时延低至0.93μs;存储层搭载ParaStor F9000实现无阻塞I/O。
散热方案同样体现系统思维——平台提供风冷、冷板液冷、浸没液冷三种形态,其中浸没式液冷PUE值可降至1.04。高密度部署能力和低运维成本,正让国产超算从“可用”走向“更好用”。
英特尔也在走相同路径。CEO陈立武提出的战略核心是“跳出单一部件,转向机架级系统”,发布至强6+处理器的同时,同步推出E835以太网控制器和Crescent Island GPU,构建CPU+GPU+网络+软件的全栈组合。
“CPU重回C位”的真正含义,不是CPU取代GPU,而是算力体系从“单点加速”走向“系统协同”。
正如中科曙光解决方案总经理张磊所言:“GPU负责暴力求解、算得快,核心逻辑部分还是需要CPU,未来二者将并驾齐驱、相互协同。”
中科曙光新一代通用高性能计算平台的发布,恰好在这个关键节点提供了令人信服的注脚。
结论
从产业实践来看,CPU与GPU不存在完全替代关系,未来将长期并存、协同发展,在不同场景各司其职。GPU擅长暴力式快速算力求解,适配通用AI加速场景;CPU核心优势在于高精度计算、逻辑运算,深耕科研与工业核心计算场景。
CPU与GPU的算力版图之争,才刚刚开始。

