智算中心的核心环节包括模型训练与推理。训练过程依托高性能计算资源,通过分布式训练、自动化机器学习(AutoML)和数据预处理等技术,优化模型算法、参数与架构,以提升准确性与效率。推理过程则将训练好的模型投入实际应用,实现对实时或批量数据的快速预测与决策,常见形式包括实时推理和边缘推理。
模型训练与推理已在众多行业带来显著变革:
计算机视觉
训练用于图像分类、目标检测与分割;推理应用于自动驾驶感知和医疗影像分析,提升诊断准确性。
自然语言处理(NLP)
训练支持文本分类、情感分析及机器翻译;推理应用于智能客服与语音助手,改善人机交互体验。
金融科技
训练用于构建信用评估和欺诈检测模型;推理实现实时交易监控,降低风险。
医疗健康
训练应用于疾病预测与药物分析;推理为临床决策提供个性化支持,优化治疗效果。
制造业
训练用于预测性维护与生产流程优化;推理实现实时设备监控与故障预警,提升运营效率。
自动化与机器人
训练支撑环境感知与运动规划;推理赋能自主导航与实时决策。
游戏与娱乐
训练生成游戏AI行为;推理提供动态内容与自适应体验,增强用户参与感。
正如上述各行业应用所示,模型训练与推理已成为驱动智能化的核心引擎。然而,这些复杂多样的应用场景对底层智算中心基础设施提出了截然不同的要求。训练任务需要极高的算力密度和大规模扩展能力以处理海量数据,而推理任务则更注重低延迟响应和高并发处理能力,尤其在边缘场景中。
因此,要有效支撑从训练到推理的全流程,一个现代化的智算中心在设计时绝不能仅关注单一指标,而需进行全局统筹。其关键设计要素主要包括以下几个方面:
01、可扩展性
生成式AI的迅猛演进, 推动了Al基础设施加速发展。按照ScalingLaws的基本逻辑,拥有越大的模型参数,AI大模型的能力就会越强。因此AI大模型的集群规模正在由万卡步入10万卡量级。
10万卡集群正在成为大模型公司的标配,马斯克宣布为xAI建设10万卡集群,OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司也在加紧10万卡集群建设。然而,搭建一个10万卡集群并非易事。集群的关键IT 部件总功率通常在100兆瓦(MW)以上,这相当于一个小型城市的电力需求。由于单个数据中心建筑无法承载100兆瓦以上量级的负载,集群通常需要分布在多个建筑中,这要求有高效的电力分配和冷却系统。
中国和东南亚地区领先的某高性能数据中心运营商和服务商在国内及东南亚地区建设了多个数百兆瓦量级的数据中心园区。
在规划建设方面,采用标准化、模块化的建筑形态,可提供单栋数据中心24MW以上容量的IT产出,相邻数据中心建筑可进行模块化拼接部署,提供48MW以上容量的IT产出,只需8栋数据中心即可以满足200MW量级10万卡集群部署需求。
为充分保障电力持续稳定供应,其超大规模数据中心集群一般会配置若干座不同电压等级的变电站,形成超大规模供电格局,有力保障业务安全高效运营。集群内设有运营指挥中心,配合BMS+系统,可实现对集群内全部数据中心的智能监控,应急事件实时响应,全方位7×24小时保障客户业务连续性。
02、成本因素
数据中心作为算力中心的基础,其投资额度虽然在算力中心整体占比相对较小,然而因为数据中心本身投资金额大、生命周期长、运行费用高的特征,合理的成本仍是项目的重要指标。
总体来讲,液冷在TCO上有明显的优势,但是在Capex上目前仍有挑战,企业和项目需要根据自身的特点,考虑不同的侧重点比较得失,从而选择合适的液冷/风冷解决方案方案。
下面将分两个方向论述液冷技术在成本上的优缺点:
1、液冷对数据中心成本的影响
数据中心本身成本包括TCO、Capex、Opex三个方面。
数据中心TCO:TCO作为最全面的成本衡量标准,在项目中应综合考虑各种因素,选择TCO最优的方案。液冷可以有效的帮助降低总体TCO,主要体现在几个方面:
1)同等算力能力下,服务器能耗可降低20-30%,显著降低数据中心投资额及运行费用。
2)降低运行PUE节省电费,特别是对于算力中心这一高负载的业务。
3)显著的提升电力产出率:在同样市电容量情况下,对比风冷,液冷PUE从1.30下降到1.15,从而IT产出提升17%,同时也有效的降低了单KW的Capex投资。
Capex:根据不同的液冷技术,Capex投资相对风冷也会发生变化。
冷板式:采用冷板式液冷方案的数据中心在Capex投资上与传统风冷相比目前仍有一定的成本差距,主要是液冷服务器成本上升导致的,业界期望未来1-2年内,随着生态的成熟,能够做到风液同价,让成本不再成为液冷技术大规模应用的阻碍条件。
浸没式:浸没式液冷在Capex投资上有一定的劣势,特别是采用氟化液的单项冷却方案,因为氟化液成本较高、Tank成本相对Rack上升,整体Capex上升较大,是目前阻碍浸没式大规模应用的一大挑战。采用油类冷却的浸没式方案Capex投资相对氟化液有很大优势,但油类冷却液的生命周期一般较短,与氟化液方案整体TCO计算的逻辑稍有不同。
Opex:使用液冷技术对服务器功耗下降和PUE下降可带来叠加的Opex节省效果。例如以PUE1.30降低到1.15,智算服务器功耗降低20%,则在一定算力规模下,可降低30%的Opex电费支出,对于高电价的一线城市,可以带来可观的经济效益。以8192卡H系列集群为例(1024台服务器),若采用液冷技术,每年可节约用电大约4000万度,如集群运行在高电价的一线城市,则每年可节约电费3000万元以上。
2、液冷技术对IT设备及整体基础设施成本的影响
液冷技术对IT设备的成本影响暂未得到业界统一的认可,但也是液冷未来可以大力发掘的机会点,包括但不限于以下几点:
1)高功率机柜解决方案带来网络互联效率上升和成本的下降。NVL72很好的诠释了这一点,一方面液冷解决了风冷散热能力不足的问题,另一方面大幅度的降低了网络相关的投入成本。
2)提升IT设备的运行效能,带来算力性能提升。例如超频带来的计算性能提升,如此部分可以较好的被量化,则液冷技术具有绝对的TCO优势。
3)提升IT设备的运行稳定性,降低运营成本。据研究,浸没式液冷可降低IT设备50% 以上的故障率,此部分带来IT在线率的提升、维修成本(Opex)下降,也是液冷在成本优势方面的另一体现。
未完,待续......
文章节选自《智算中心液冷技术发展报告(2024 版)》
该报告深入分析液冷技术在智算中心的应用现状、技术发展和未来趋势。旨在为智算中心的规划和建设提供参考,帮助行业同仁更好地理解和应用液冷技术,推动AI行业的可持续发展。