摘要
8月15日,由中讯邮电咨询设计院有限公司与CDCC联合主办的第14届中国数据中心设计高峰论坛在北京圆满举行。本届论坛以“创新设计 重构未来”为主题,聚焦技术创新,凭借权威视角、深度内容与专业阵容,探讨数据中心设计的新方向。
中国联通数科云计算事业部 IDC技术总监何健,以《天工算枢-中国联通十万卡集群规划技术探索》为题发表演讲,系统阐述了中国联通建设十万卡级大规模智算集群的技术蓝图与创新路径。
中国联通因改革而生,由创新而兴。在整个发展阶段主动融入国家发展大局,为网络强国数字中国建设贡献力量。中国联通勇担当数字信息运营服务国家队和数字技术融合创新排头兵,大力推进联网通信和算网数智两大主业。
在AI基础设施方面,中国联通通过"三层智算体系"重构生产力基座:基于国家"东数西算"“数字中国,网络强国”战略打造"4+4+31+X+O"智能算力枢纽网络,已完成250+地市覆盖、310+资源池部署及560万+核通算资源整合,构建支撑万卡/十万卡超大集群、训推一体、边缘推理的分层级资源布局。
十万卡集群,不仅是算力基础设施,更是数字时代的新型战略武器平台。中国联通以网络强国、数字中国为战略使命,抢抓机遇、提前卡位,提前部署AIDC配套基础设施,打造承载10万+集群能力。
AI驱动智算需求增长,带动了基础设施高质量发展转型机遇和可持续发展的挑战。AIDC技术复杂度提升,同质化竞争环境下,要通过技术能力和定制化解决方案,建立服务优势。芯片设计功耗的增长直接推动了机柜功率密度的急速跃升。从早期的400W、700W发展到如今的1400~1600W。早期数据中心5-6kW的机柜功率已成为过去,新数据中心的平均功率密度提高至15kW。但即便如此,仍无法适配最新服务器,例如GB200整柜功耗高达132kW,华为384超节点也达到54kW。功率密度持续攀升带来了供电架构、供电制式、制冷架构等的演进。基础设施的交付模式也已改变,从过去提供机柜空间由客户自行安装,转变为现今主流的整机柜交付。这一变化对未来数据中心的空间布局和预留方式提出了全新要求。不同的建筑形式对层高、承重、筑网及互联互通的要求远高于以往,需与机电产品预制化相结合,以探索敏捷交付的最佳路径,甚至未来可能走向整体集装箱式部署。
基础设施需要主动融智,绿色低碳,弹性适配,由资源型向服务型转变。
十万卡集群并非由单一建筑承载,而是通过多个建筑单元组合实现,具备平滑演进、弹性扩容和灵活适配的能力,我们的核心目标是构建一个“可生长”的算力中心。整体上,它是一个超大规模集群;解裂后,每个单元(如2万卡或3万卡的数据中心)均可独立运营。
在物理布局上,采用了先进的向心布局重构设计,以优化整体效率和互联性。该设计的核心响应了IT的关键诉求:将互联传输距离最短化,从而降低信号损耗、节省光缆及光模块成本,最终提升整体算效。
经此优化,当前布局可高效支持十万卡集群:
Spine-Leaf 互联距离控制在约10-20米;
Leaf-Spine 互联不超过50米;
Spine-Core 主干距离保证在100米以内。
对于供电波动影响,根据实测数据可以明显看到GPU的负载电流波形峰峰值不规律,会出现ms级或者ns级的波动,这种电流冲击会反向影响到电网和供电设备的安全运行。
当前行业普遍关注如何降低数据中心的总TCO,其中一项趋势是从传统2N架构转向DR或BR等架构。在2N系统中,由于具备50%的冗余容量,一般可以忽略波动;但在BR或N+2C架构中,主用供电仅以N为基础,一旦发生瞬时波动,波形叠加后所产生的冲击将对供电系统安全带来严峻挑战。是采用超级电容,还是“超级电容+锂电池”的混合方案或是通过室外集中部署储能系统来缓冲这类冲击?目前仍在积极探索中。
在供电架构的弹性与平滑演进方面,海外已较多采用DR架构。例如,在部署搭载H100服务器的案例中,服务器电源模块为“4+2”配置,更加适配DR架构而非传统2N配电架构。
随着IT设备功耗持续攀升,电力室与机房面积占比发生很大变化,节约电力空间是必然趋势。为此中国联通与中讯院联合推出了自研一体化电源产品。该产品已规模应用于多个大型数据中心园区,不仅大幅节省空间,还实现了工厂预制化与产品化交付,显著提升了建设效率。为应对高功率密度机柜的需求,中国联通和中讯设计院已开展大量前瞻性研究,同步打造了全直流柔性供电产品,适配未来供电制式的演进。
在冷却方案方面,冷板式液冷已成为行业主流,但其风液配比仍需进一步优化,不排除重新引入浸没式液冷以实现完全去风冷化。风液同源架构正成为主流且被广泛推崇的解决方案。在冷源方面,尝试取消冷冻水,将冷却水直接接入末端,结合自然冷却及双盘管空调系统,以高效满足制冷需求。对于缺水地区,则优先选用干冷器方案。
中国联通与中讯院联合自主研发的采用风液同源架构的液冷云舱产品。旨在实现服务器液冷机柜与机房基础设施之间的解耦,进一步提升整体能效与部署灵活性。
最后,我们将持续攻关的核心技术方向。
1、推进全直流供电系统的落地,引领数据中心能源系统的一次根本性变革。
2、积极探索新型电池技术,包括开展锂电池的试点应用。
3、构建多能互补、柔性协同的算电热一体化技术体系,打造绿色高效的算力园区。
4、深入开展相变式冷板液冷等先进制冷技术的研究