第三季度临近,正在逼近的时间轴上一个焦点不断放大——超节点架构。对于AI基础建设圈而言,这看起来像是被AI算力焦虑绑架的斯德哥尔摩症候群,以技术进步的名义。
鼓点密集。5月份,黄仁勋在COMPUTEX 2025上宣布GB300 NVL72将于今年第三季度开始升级部署。而就在此前一个月,华为正式发布了CloudMatrix 384超节点,并宣布该架构已在芜湖数据中心规模上线。同样是在4月,ETH-X技术规范1.0发布,首台ETH-X超节点原型机在华勤东莞基地下线,ETH-X联盟说他们正在推进大规模集群测试。
7月份,当人们在WAIC大会上亲眼目睹华为首次线下展出的Atlas 900 A3 SuperPoD(昇腾384超节点),并宣称其性能超越英伟达NVL72集群时,一时间,仿佛超节点的硬件实体已经是一种普遍存在,支撑着算力中心解决通信的瓶颈。
无远弗届
可以把超节点架构理解为AI算力基础设施设计范式的一种创新,即通过将传统需要多台服务器协同完成的任务,集成到一个物理或逻辑上的“超级计算单元”(即超节点)中,通过更紧密的内部互联和资源共享,来实现更高的计算密度、更低的通信延迟和更强的整体性能。
超节点架构的核心在于解决大规模并行计算中的通信瓶颈问题,其实现路径有三个:内部高速互联技术、资源池化设计和规模扩展机制。
在内部互联技术方面,主要分为私有协议方案和开放标准方案。前者以英伟达和华为为代表,后者在国内主要是ETH-X联盟。
英伟达的NVL72超节点采用第五代NVLink技术,每个B200 GPU提供7.2Tbps的Scale-up(纵向扩展)连接带宽,通过PCIe对外提供400Gbps的Scale-out(横向扩展)连接带宽,Scale-up带宽是Scale-out带宽的18倍。
华为的CloudMatrix 384则采用自研的UB(统一总线)网络,每个昇腾910C芯片集成七个高速收发器,每个收发器工作速率为224Gbps,单向带宽达196Gbps,双向带宽为392Gbps。
ETH-X联盟的ETH-X开放超节点采用基于以太网的开放标准(RoCEv2),支持112Gbps Serdes速率(未来升级至224Gbps),交换芯片时延低至200ns,通过NOC(片上网络)级拓扑实现跨GPU直接访问 。
资源池化设计是超节点架构的另一关键特征。
英伟达NVL72通过NVLink和NVLink C2C,所有GPU都可以任意访问其他GPU的内存空间,整机柜支持13.5TB的HBM和17TB的LPDDR5X内存容量。
华为通过UB网络实现计算、内存和网络资源的动态池化,例如将鲲鹏CPU内存与昇腾NPU共享,支持零拷贝传输和统一内存访问。
ETH-X则利用以太网统一内存编址,支持跨GPU直接内存访问(Direct Access)与零拷贝传输,根据实际测试数据,跨卡数据访问时延能够降低12.7倍。
在规模扩展机制方面,超节点架构采用Scale Up和Scale Out相结合的方式。
英伟达NVL72通过L2 NVLink Switch进行16个NVL36超节点互联,完成Scale-up方向NVL576的扩展,提供576卡的计算能力??。
华为CloudMatrix 384由12个计算柜和4个总线柜组成,支持384个昇腾910C NPU和192个鲲鹏920 CPU的全互联,通过UB网络实现无阻塞的all-to-all拓扑。
ETH-X支持8~512卡弹性组合,单柜最高支持64 GPU,通过交换节点扩展至更大规模。
表1:三大超节点技术方案比较
超节点方案 | 内部互联技术 | ?带宽与时延 | ?资源池化能力 | ?扩展规模 |
英伟达NVL72 | NVLink5 | 单向7.2Tbps,时延<1微秒 | GPU间内存直接访问,HBM共享 | 72卡/节点,扩展至NVL576(576卡) |
华为CloudMatrix 384 | UB网络(自研) | 单向196Gbps,时延200纳秒 | 计算、内存、网络资源动态池化 | 384卡/节点,最大支持16万卡集群 |
ETH-X开放超节点 | 以太网(RoCEv2) | 单向3.2Tbps,时延<2微秒 | 跨GPU直接内存访问,零拷贝传输 | 8~512卡/节点,支持多机柜互联 |
来源:响指
焦虑缓解
如前所述,超节点架构是一种范式上的创新,赋予性能以近乎无远弗届的想象。它的确缓解了AI训练、推理和科学计算等应用场景中的算力焦虑:
在AI训练场景中,超节点架构通过高带宽、低延迟的互联网络,有效支撑起张量并行(TP)和专家并行(EP)等通信密集型任务;
在AI推理场景中,超节点架构通过资源池化减少数据搬运开销,提升吞吐量;
在科学计算场景中,超节点架构通过高带宽互联加速数据同步。
然而,这并不是说,超节点架构已然白富美。
除了显而易见的散热与供电问题外,跨机柜通信延迟问题在ETH-X等开放标准方案中尤为明显,其跨机柜延迟约2微秒,是Scale Up内部延迟(200纳秒)的10倍,可能影响分布式科学计算任务效率。此外,还有运维复杂度的问题,例如华为的方案光模块数量多达6912个,推高了硬件成本;ETH-X铜缆方案布线虽然简单,但开放标准的兼容性还需要验证。
三分天下
放眼国内市场,目前超节点架构领域的主力可谓三分天下:超节点概念的提出者英伟达、华为,以及由开放数据中心委员会(ODCC)主导的ETH-X联盟。如前文所述,英伟达(NVLink、InfiniBand)和华为(UB)都采用私有协议路线,ETH-X(以太网)则是开放标准路线。
英伟达通过CUDA生态绑定用户,形成强大的软件生态壁垒;华为则通过芯片与架构的深度协同设计,实现昇腾910C与UB网络的高效配合,其昇腾云脑提供的智能调度能力,则可保障超节点运行的长期稳定性。
比较特别的是ETH-X,该联盟由中国信通院与腾讯携手发起,联合了包括华勤技术、立讯精密、燧原科技、壁仞科技、新华三、锐捷网络等在内的30余家产学研机构共同成立。
从已发布的ETH-X技术规范1.0看,其AI Rack整机柜布局包括计算节点、交换节点和关键组件,单柜支持64 GPU,通过交换节点扩展至更大规模。
ETH-X目前采用Cable Tray铜缆方案降来低布线成本(英伟达也是铜缆,华为则是光缆),支持动态重构超节点规模,同时通过800G光模块实现跨柜互联,平衡成本与时延。不过,
未来发展到512 卡以上规模时(ETH-X Ultra 项目),将转向全光互联。
此外,ETH-X的硬件设计实现了完全解耦,计算、交换、互联三大子系统均可独立进行研发,且能够兼容来自不同厂商的硬件设备,例如兼容壁仞、燧原等国产GPU,这一特性可谓体现出有别于其他两家的“开放性”的价值。
截至目前(8月份),ETH-X成员已扩展至35家,包括浪潮信息、寒武纪、中兴通讯等,生态开放性在持续增强。
表2:国内超节点架构主力差异
厂商/方案 | ?技术路线 | ?核心产品 | ?性能指标 | ?生态策略 |
英伟达 | 私有协议(NVLink) | NVL72(72 GPU),NVL576(576 GPU) | 单向7.2Tbps带宽,<1微秒时延,13TB HBM共享 | CUDA生态绑定,高端市场主导 |
华为 | 私有协议(UB网络) | CloudMatrix 384(384昇腾NPU) | 单向196Gbps带宽,200纳秒时延,内存带宽是NVL72的2.1倍 | 昇腾+鲲鹏+昇腾云脑闭环生态,国产替代 |
ETH-X联盟 | 开放标准(以太网) | AI Rack整机柜(64 GPU) | 112Gbps Serdes,2微秒跨柜延迟,成本降低38% | 多厂商协作,兼容国产GPU,成本优势 |
来源:响指
走向何方
不论是哪种技术路径,超节点架构的发展方向十分明确:规模突破、技术融合与生态竞争。
从规模上看,百卡级已然是标配级,千卡级甚至更大规模才能缓解算力焦虑。
英伟达的NVL576就是扩展至576卡,但受限于私有协议的成本与物理限制,千卡级的扩展面临挑战。
华为的CloudMatrix 384通过参数面交换机(Parameter Plane Switches)支持最大16万卡集群规模!想象一下,这个Scale-out如果拉满,是不是有点恐怖?
ETH-X表现的中规中矩,8~512卡,可通过动态重构弹性组合单元,身段灵活。
扩张规模,超节点架构需要多种新兴技术的加持。例如与CXL 3.0的结合,CXL 3.0支持64GT/s数据速率,能提供更高的带宽和更低的延迟,未来可能通过协议转换适配ETH-X等开放标准,实现跨厂商内存共享。
液冷技术也是超节点的标配,包括冷板式液冷和浸没式液冷。
再就是被广泛关注的光互连技术,主旋律是从“可插拔光模块”向“芯片级光I/O”快速演进,包括机柜内 Scale-Up的CPO/NPO(硅光引擎与交换芯片共封装)、片间光总线(oNET/oNOC)、PCIe 走光(PCIe over Optics)等,机房级 Scale-Out的800 G/1.6 T 可插拔 DR8/FR8、LPO/LRO 低功耗直驱、分布式全光交换(HyScale/Torus)等。
讲到生态竞争,可以说,私有协议与开放标准并存将是超节点架构不变的格局。英伟达通过CUDA生态和高端硬件性能保持市场主导地位,但面临来自开放标准和国产替代方案的竞争压力;华为通过昇腾云脑等云服务降低用户使用门槛,实现资源利用率的最大化,同时构建昇腾+鲲鹏+昇腾云脑的闭环生态,强化用户粘性;ETH-X开放标准则加速国产技术生态建设,通过ODCC网络组推动多方厂商参与,构建大型多GPU互联算力集群系统。
结语
终点遥不可及,焦虑永在路上。随着大模型向万亿参数、千亿用户并发演进,对AI基建中的算力密度、通信效率的要求只增不减。无论是国际巨头,还是国产力量,都在忙于探索适合自身的路径。
如果说,三国杀的赢面在于能否精准洞察局势、灵活运用角色技能与手牌资源,那么能否推动竞争从单一芯片性能转向系统级整合能力,能否实现生态协同、工程优化,并兼顾成本控制,将成为超节点竞争中的关键胜负手。