• 正文
  • 相关推荐
申请入驻 产业图谱

存储带宽远比算力重要,英伟达H20与B30分析

07/30 10:10
1386
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2023年10月,美商务部更新了针对AI芯片的限制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。受此影响,英伟达NVIDIA)此前针对中国市场定制的A800、H800,以及此前未受限的众多AI芯片都受到了限制。基于此,NVIDIA随后又为中国市场定制了H20、L20、L2等产品。2025年4月短暂限制H20出口,2025年7月16日,又放开H20出口,理由是H20已经不算先进,确实,H20对英伟达来说不算先进。

图片来源:英伟达

从公布的参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比(1.2-1.4万美元,略低于Ascend 910的约1.66万美元)持悲观或怀疑态度。然而根据英伟达财报,2024财年,H20销售额高达150亿美元,2025财年一季度H20本来销售额高达70亿美元,实际录得46亿美元,主要原因是2025年4月9日英伟达收到美国政府通知,面向中国市场的H20产品出口需申请许可证。由于此项规定导致H20需求减少,英伟达在2026财年第一季度因H20的库存积压和采购承诺而产生了45亿美元的费用。在新的出口许可要求实施前,2026财年第一季度H20产品销售额为46亿美元。英伟达当季另有25亿美元的H20订单无法交付。

H20算力很低,FP8稀疏算力只有296TOPS,英伟达车载用的Thor-X的FP8稠密算力达517.5TOPS,稀疏算力达1035TOPS,远在H20之上,但价格只有H20的1/10不到。实际大模型时代,算力值完全可以忽略,存储带宽远比算力值重要百倍。H20的算力只有H100的1/5,但推理速度轻松超过远比其昂贵的H100。

当前的主流 LLM 基本都是 Decoder Only 的 Transformer 模型,其推理过程可以分为两个阶段:

图片来源:论文《A Survey on Efficient Inference for Large Language Models》

Prefill:根据输入 Tokens(Recite, the, first, law, of, robotics) 生成第一个输出 Token(A),通过一次 Forward 就可以完成,在 Forward 中,输入 Tokens 间可以并行执行(类似 Bert 这些 Encoder 模型),因此执行效率很高。

Decoding:从生成第一个 Token(A) 之后开始,采用自回归方式一次生成一个 Token,直到生成一个特殊的 Stop Token(或者满足用户的某个条件,比如超过特定长度) 才会结束,假设输出总共有 N 个 Token,则 Decoding 阶段需要执行 N-1 次 Forward,这 N-1 次 Forward 只能串行执行,效率很低。另外,在生成过程中,需要关注的 Token 越来越多(每个 Token 的生成都需要 Attention 之前的 Token),计算量也会适当增大。

LLM推理计算过程时间分布

图片来源:论文《Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference》

在 LLM 推理中最关键的就是下图中的 Multi-Head Attention,简称MHA,其主要的计算集中在左图中灰色的 Linear(矩阵乘)和 Scaled Dot-Product Attention 中的 MatMul 矩阵乘法。

图中的 Mask 是一个下三角矩阵,也是因为这个下三角矩阵实现了 LLM Decoder 的主要特性,每个 Token 都只能看到当前位置及之前的Token。其中的QKV可以理解为一个相关性矩阵,4 个 Token 对应 4 个 Step,其中:

Step 2 依赖 Step 1 的结果,相关性矩阵的第 1 行不用重复计算;

Step 3 依赖 Step 1 和 Step 2 的结果,相关性矩阵的第 1 行和第 2 行不用重复计算;

Step 4 依赖 Step 1、Step 2 和 Step 3 的结果,相关性矩阵的第 1 行、第 2 行和第 3 行不用重复计算。

在 Decoding 阶段 Token 是逐个生成的,上述的计算过程中每次都会依赖之前的结果,换句话说这是串行计算,而非GPU擅长的并行计算,GPU大部分时候都在等待数据搬运。加速的办法是计算当前 Token 时直接从KV Cache 中读取而不是重新计算,对于通用LLM,应用场景是要考虑多个并发客户使用,即Batch Size远大于1,KV Cache的缓存量会随着Batch Size暴增,但在车里用户只有一个,就是自动驾驶端到端大模型,即Batch Size为1。

因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后,上面介绍的 Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但Token之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,矩阵与矩阵的乘法。

矩阵乘向量操作是明显的访存 bound,而以上操作是 LLM 推理中最主要的部分,这也就导致 LLM 推理是访存 bound 类型。

由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

三星对GPT大模型workload分析

图片来源:三星

上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM所占只有2.12%,非线性运算即神经元激活部分占的比例也远高于GEMM。

三星对GPU利用率的分析

图片来源:三星

上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格讲没有任何运算,只是存储行列对调,完全是存储器CPU在忙活。解决办法很简单且只有一个,就是用HBM高宽带内存。

华为的910B优化了架构设计,提升了能效比,芯片尺寸为21.32mm×31.22mm,FP16算力约320TFLOPS,INT8算力约640TOPS。显存为64GB HBM2e,显存带宽400GB/s。910B也分为B1/B2/B3。910B3引入了HBM3e内存,理论上带宽可以到3TB/s,但这需要台积电CoWoS工艺支持和HBM厂家支持,华为自然是得不到这种支持的,因此带宽只是略微提升至1.2TB/s。无论是哪个版本的存储带宽都远不及H20的4TB/s,可以说H20小胜华为910B。

910C采用了类似B200的双die封装设计(将两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾910B整合到一起,实现了性能的提升。这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。业界估测,910C在FP16精度下的单卡算力能达到800TFLOPS左右,大概是英伟达H100芯片(2022年推出)的80%,有关HBM存储方面则未知,考虑到与美国的关系,三大HBM厂家都不会将最先进的HBM3卖给中国,910C大概率还是1.2TB/s的HBM3E,也就是说还是H20小胜。

除了存储带宽,互联带宽方面,H20没有使用英伟达最先进的第五代NVLink,而是使用了第四代NVLink,带宽高达900GB/s,远高于华为的392GB/s。

目前H20已经停止在台积电投片,市场上的都是库存,目前库存大约40万片,英伟达已经为中国市场特别开发了B30芯片,B30预计2025年4季度出货,英伟达初期备货量120万片,价格在6500-8000美元之间。

B30在算力方面增强,在存储带宽方面减弱。B30 的 FP32 算力(200 TFLOPS)是 H20(44 TFLOPS)的 4.5 倍,在科学计算和传统训练任务中更具优势。但 H20 的 FP16 稀疏算力(148 TFLOPS)和 FP8 支持(296 TFLOPS)使其在生成式 AI 推理中效率更高。例如,B30 在 ResNet-50 训练中的能效比(TOPS/W)为 H20 的 82%,但 B30 通过降低功耗(250W vs 400W)实现单位成本下降 58%。B30的FP8稀疏算力估计是800TOPS,虽然远高于H20,但存储带宽改为低成本的GDDR7,仅为1.597TB/s,也有人说是1.2TB/s,因此推理能力远低于H20。https://zhuanlan.zhihu.com/p/1914259678759752381,在 Stable Diffusion 图像生成任务中,B30 的单卡吞吐量仅为 H20 的 55%,而多卡集群因互联延迟增加,整体效率进一步下降至 75%。并且据说GDDR7的容量也只有24-48GB,远低于RTX6000的96GB。

几代GDDR的性能对比

整理:佐思汽研

上表是几代GDDR的性能对比,基本上第一代GDDR6的理论上限就是672GB/s,第三代GDDR6最高是900GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量为32GB,GDDR7典型带宽达1597GB/s。

B30基于RTX Pro 6000D服务器级GPU,未使用台积电的CoWoS封装技术,制造成本更低 。在芯片互联方面,B30也使用了廉价的ConnectX-8 SuperNICs技术,带宽仅仅100GB/s,远低于第五代NVLink的1800GB/s。

英伟达向中国倾销低价产品,就是吃定了中国的AI芯片缺乏竞争力。国内AI芯片产业,特别是中芯国际还需要加倍努力。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

「联系方式」手机号同微信号

产业研究部丨符先生 15810027571

赵先生 18702148304

数据服务部丨?张女士 13716037793

战略咨询部丨?韩女士 15810133447

推广传播部|廖女士 13718845418

英伟达

英伟达

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。美国GPU及AI计算巨头,传感器技术应用于自动驾驶及机器人领域。

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。美国GPU及AI计算巨头,传感器技术应用于自动驾驶及机器人领域。收起

查看更多

相关推荐