引言
全球范围内,一场高投入的竞赛正在展开:各国与各类企业不断扩建数据中心,以支撑其人工智能(AI)的发展。
最新研究预测
包括数据中心、网络与硬件在内的 AI 基础设施投资将于 2029 年 达到 4230 亿美元,年复合增长率(CAGR)约 44%。然而,AI 的快速创新也前所未有地加剧了数据中心网络的压力。以 Meta 最近发布的 Llama 3 405B 训练集群为例,其预训练阶段需要超过700 TB 内存与1.6 万张 NVIDIA H100 GPU。Epoch AI估计,到 2030 年,AI 模型所需计算能力将达到当今领先模型的1 万倍。
如果企业里拥有数据中心,引入 AI 就只是时间问题。关键问题是:
网络基础设施是否具备扩展能力,可以承载复杂且大流量的 AI 训练负载?
本文聚焦 AI 数据中心集群扩展,识别关键网络挑战并阐明为何网络成为新瓶颈;
同时说明如何借助先进模拟与仿真方案克服这些挑战,帮助您打造可扩展、可靠的 AI 网络以匹配 AI 战略目标。
AI 集群的兴起
思科(Cisco)的一项最新调研显示,89% 的受访者计划在2026年前部署某种形式的 AI 就绪型数据中心集群。
AI 集群是一个由大量计算资源构成、高度互联的网络,用于承载 AI工作负载。与传统计算集群不同,AI集群针对模型训练、推理与实时分析进行了优化:它们依赖成千上万张 GPU、高速互连与低时延网络来满足密集计算与数据吞吐的需求。
构建 AI 集群
可以把 AI 集群理解为“缩微网络”:通过构建“微型计算机网络”将 GPU 相互连接,使其能高效地进行数据传输。在面向数千—数万 GPU 的分布式训练中,稳健的网络连接是长期协同训练的基本保障。
AI 集群的关键组成
01、计算节点:
相当于 AI 集群的“大脑”。成千上万的 GPU 连接到机架顶层交换机(ToR);问题越复杂,所需 GPU 越多。
02、高速互连:
如以太网等,用于在计算节点间快速传输数据。
03、网络基础设施:
涵盖网络硬件与协议,支撑长期运行、成千上万 GPU 之间的数据通信。
图1:人工智能数据中心集群
扩展 AI 数据中心集群
AI 集群规模需要随业务需求与工作负载弹性扩展。随着模型日益复杂,组织不断推动集群扩张。Dell’Oro Group 的网络报告指出,AI 集群规模几乎每年以 4 倍速度增长,对网络基础设施提出巨大挑战。
直至最近,网络带宽、时延 与 电力分配 等因素将 AI 集群规模限制在约 3 万张 GPU。然而,xAI 的 Colossus 超级计算机项目在 2024年将规模提升到 10 万张 NVIDIA H100,突破历史上限。网络与内存技术的最新创新,使 GPU 间数据通信更快,标志着 AI 集群可扩展性的重大飞跃。
扩展中的关键挑战
01?)网络挑战
当参数规模扩展到万亿级及以上时,传统数据中心网络可能无法高效扩展。GPU 擅长并行数学计算,但在成千上万 GPU 协同工作时,若有任意单卡因数据不足或延迟被“卡住”,其他 GPU 也会被拖慢。拥塞网络带来的时延拉长或丢包触发重传,显著增加 JCT(作业完成时间),让价值数百万美元的 GPU 效率降低。
此外,AI 工作负载下东西向(east-west)流量暴增,若缺乏针对性优化,极易引发拥塞与时延问题。
02?)互连挑战
随着集群扩展,传统互连难以满足吞吐需求。升级到 400G / 800G / 1.6T 等更高速的互连往往势在必行。但在这些速率下,高速串行链路必须经过精细测试及优化,以确保最佳信号完整性(SI)、更低误码率(BER)与更好 FEC(前向纠错)的性能及冗余。这需要高精度、高效率的测试系统在部署前完成链路验证。
03?)财务挑战
除 GPU 费用外,还必须考虑电力、冷却、网络设备与更广泛的数据中心基础设施成本。AI 训练常持续数周甚至数月,占用昂贵的计算资源。通过更好的互连或改进的网络性能加速训练,不仅能缩短训练周期,也能更早释放资源用于其他任务——节省的每一天都可能转化为显著成本优势。
图2. 800G和1.6T技术研发的预计时间表
AI 集群网络的验证
要加速模型训练并最大化 ROI,必须对网络结构(fabric)与 GPU 间互连进行测试与基准评测(benchmarking)。
困难在于:硬件、体系结构设计与动态工作负载三者之间存在复杂耦合,给统一、可复现的验证带来挑战。
图3:是德科技的AI数据中心构建器通过多层级运作,精准复现AI工作负载行为
实验室部署的现实制约
在实验室复制生产级网络代价高昂:设备有限、需要专业网络工程师,且实验室在空间/供电/散热等方面与生产环境往往不一致。直接在生产网络上测试,又会挤占算力、影响关键 AI 任务。另一方面,AI 工作负载与数据集高度多样(大小与通信模式差异大),使得问题复现与一致性基准更为困难。最终,要洞察 GPU 之间的集体通信细节,需要先进的监测工具来分析同步与数据交换模式,诊断性能瓶颈。
在实验室“模拟一切”
Keysight AI Data Center Builder 通过高密度高速率测试仪器来仿真真实 AI 流量模式。
典型流程如下
先在实验室测试目标方案的子集,对集合通信完成时间,算法带宽,总线带宽、P50/P95长尾等关键指标进行基准评测。这有助于在设计阶段平衡 GPU/工作负载设置与网络配置。当网络架构师与工程师对结果满意后,便可将设置应用到生产,并对新结果进行测量。凭借此方案,工程师能够在实验室或过渡环境中先设计与优化,随后落地到生产;这个过程无需在实验室部署专用的 AI 计算节点与Smart NIC。
面向未来的网络部署
随着 AI 重塑数据中心产业,前瞻性地建设网络至关重要。Ultra Ethernet Consortium(UEC)正在推进开放、互操作的行业标准,面向 AI 的性能与可扩展性。UEC 引入 链路级重试(LLR)与拥塞管理等机制,以增强以太网在 AI 工作负载场景下的可扩展性与确定性。展望未来,Ultra Ethernet 与其他新兴标准将成为“AI 就绪网络”的关键推动力。
Keysight AI Data Center Builder 的优势在于:它支持AI网络各层的模拟和仿真,帮助客户优化训练时间、复现生产网络问题、调优 AI cluster 性能、新方案新组合的验证、为多厂商协作提供平台。
(Learn More:了解?KAI 解决方案、AI 数据中心网络测试用例与?AI 学习中心)
是德科技携手 Heavy Reading 发布《超越瓶颈:2025 年 AI 集群网络报告》指出,AI 采用正全速推进,而现有基础设施的就绪度已难以同步跟进。基于全球样本的调研,报告呼吁电信与云服务提供商将战略重心从单纯“扩张”转向“以优化为先”,以更确定、更高效的网络承载下一代 AI 工作负载。欢迎在文末“阅读原文”下载完整版报告,或者点击下载参与我们的问卷。
结语
当 AI 推动数据中心进入全新阶段,网络 已成为 AI 成功的新瓶颈亦或新引擎。
借助高保真仿真与系统级验证,企业能够在实验室里复刻生产难题,以可测、可复现 的方法优化网络并缩短训练周期,从而在 AI 基础设施的竞赛中占得先机。是德科技将持续以 KAI(Keysight Artificial Intelligence) 方案,帮助客户在设计—仿真—验证—部署 的全链路上实现“从可用到卓越”的跃迁。