热搜词: 2025 2026

创新情报站丨智能计算超节点: 突破算力边界

转自:中关村发展集团

当前,全球人工智能竞争加剧,算力需求激增,传统单机架构受到挑战。超节点可通过多计算芯片紧密协同,实现算力高效聚合。2025世界人工智能大会(WAIC2025)上,华为首次线下展出昇腾384超节点(基于昇腾AI,300PFLOPS算力与全光互连),显示其成功实现了业界最大规模的384卡高速总线互联,再次引发业界对超节点技术的关注。本文将深入探讨超节点的技术路线,剖析其优缺点,并研判未来超节点技术发展趋势。

一、发展背景

AI模型训练和推理需处理海量数据、复杂并行计算,对计算能力和通信效率要求较高。Transformer等大型神经网络模型出现后,算力和显存需求激增,单个GPU甚至服务器难以满足需求。除GPU自身强算力外,更需要GPU间、服务器间超高速互联,组成集群来承担任务。提升集群计算能力主要有两种方式:

(一)提高单芯片计算能力

通过增加晶体管数量、优化架构或采用先进的制程工艺等方式,可显著提高单芯片的性能,从而提升算力集群的计算能力。例如英伟达的B300GPU通过使用台积电4np制程工艺、全新架构和更高的CUDA核心数量,其单芯片算力可达约5PFLOPS(FP16)。

(二)构建更大规模计算集群

基本分为两种扩展策略:Scale-Up(纵向扩展)与Scale-Out(横向扩展)。简单而言,Scale-Up是在单一节点内集成更多GPU、TPU等计算单元和更大内存,组成一个更大的“计算核心”。Scale-Out则通过高速外部网络,将多个节点连接起来,构建分布式计算集群。

二、突出特点

(一)核心优势:最大化通信效率,提升算力利用率

相较于普通节点组成的计算集群,超节点计算集群优先采用Scale-Up策略,可最大化节点内部通信效率,减少了普通节点组网在跨节点通信中的带宽占用和延迟,尤其适合大模型训练中的通信密集型任务,提升MFU(算力有效使用率)。例如,华为推出的超节点方案据称可将MFU提升50%以上。

以MoE(Mixture-of-Experts)架构大模型训练为例,MoE模型将一个大模型拆分为多个“专家”模块,在处理输入时,仅激活最相关的专家。然而,这种模式需要专家之间频繁交换参数和同步数据,对网络通信造成巨大压力。在传统集群中,这种跨节点通信往往成为性能瓶颈。而超节点则允许所有专家在单一节点内部高效协作,极大地降低了通信开销,加速了模型训练进程。

此外,超节点可使用集中供电和更高效的冷却技术,相比普通节点组网能更有效地控制功耗和散热需求。

(二)面临挑战:高昂成本与复杂热管理

超节点集群的部署成本相对较高,因其硬件集成度高,采用NVLink、光互连等技术,以及液冷等冷却方案,导致初期采购和部署成本远高于普通节点集群。超节点的高密度设计也将产生大量热量,尤其是在使用光互联技术中光学组件等对温度敏感的部件仍需复杂热管理方案,相比普通节点集群,其热管理设计和实施更具挑战性。

三、发展方向

受芯片制程、单芯片算力限制及服务器间通信技术提升影响,业界对超节点的需求会变得越来越强烈,超节点技术将成为未来智算重要发展方向。国外英伟达、国内华为等均有相关研究布局,但短期内传统算力集群与超节点集群将面向不同场景长期共存。我们判断,超节点未来发展或将围绕以下方向:

(一)下一代高速互联技术

超节点核心优势是内部高效通信能力。当前NVLink等技术已为超节点内部提供高带宽、低延迟的GPU间通信,而随着模型并行和数据并行需求增长,未来超节点需更强互联技术。光互联将成为重要方向,CPO(光电共封装)等技术通过光模块与计算芯片紧密集成,可显著提升带宽密度并降低功耗。

(二)下一代液冷方案

随着芯片功耗密度不断刷新上限,高效液冷成为超节点设计的必然选择。当前,主流的冷板式液冷技术已广泛应用,更前沿的方案正在加速涌现。浸没式液冷技术通过将服务器完全浸入介电冷却液中,实现了极高的散热效率,从而有效支持更高的计算密度。同时,直接在芯片内部集成微小冷却通道的微流控技术,以及利用材料相变潜热高效吸热的相变液冷方案,也代表着散热技术的重要发展方向。

(三)软件生态与自动化优化

超节点性能不仅依赖硬件,还需强大软件生态支持,编译器、系统和AI框架等软件栈优化可进一步发挥硬件潜力。AutoML、硬件感知调度等自动化优化工具将成标配,帮助开发者在复杂超节点集群中高效部署模型。