Epoch AI 最近发布了一份关于 AI 芯片组件成本的数据分析,结论让人意外:在当前的 AI 训练芯片中,内存(HBM)的成本已经占到总组件成本的 63%,而计算单元本身只占很小一部分。
数据说了什么
Epoch AI 的分析追踪了近年来主流 AI 训练芯片的成本结构变化。早期的 GPU 设计中,计算核心是成本的大头,内存只是辅助组件。但随着 AI 模型规模的爆发式增长,高带宽内存(HBM)的需求量急剧上升,成本占比也随之飙升。
到 2025-2026 年,内存已经占据了 AI 芯片总成本的近三分之二。这个比例在几年前还不到一半。
为什么会这样
根本原因是大模型的参数规模增长太快。训练一个万亿参数级别的模型,需要的显存容量和带宽都在指数级增长。而 HBM(高带宽内存)的制造工艺复杂、良率有限、产能紧张,价格自然居高不下。
具体来看几个关键因素:
- HBM 产能紧张:目前全球能生产 HBM 的厂商主要是 SK 海力士、三星和美光,产能扩张速度跟不上需求增长
- 工艺升级成本:从 HBM2 到 HBM3E,每一代工艺升级都需要大量投资,这些成本最终转嫁到芯片价格上
- 封装技术复杂:HBM 需要使用先进的封装技术(如 CoWoS),封装成本本身就不低
- 良率问题:多层堆叠的 HBM 良率一直是行业难题,低良率意味着更高的单位成本
对行业的影响
这个成本结构变化对 AI 行业有几个重要影响:
训练成本持续走高:内存成本占比高意味着,即使计算单元降价,AI 训练的总成本也很难大幅下降。这对资金有限的中小企业和研究机构来说是个坏消息。
内存厂商话语权增强:SK 海力士、三星等内存厂商在 AI 芯片供应链中的地位越来越重要。他们的产能规划和定价策略,直接影响整个 AI 行业的成本结构。
架构创新压力:芯片设计者需要想办法降低对 HBM 的依赖,或者找到更经济的内存方案。这推动了近存计算、内存计算等新架构的研究。
推理成本分化:对于推理场景,内存带宽是瓶颈。那些能有效压缩内存占用的技术(如量化、稀疏化)会越来越有价值。
对站长和开发者的启示
虽然这个话题看起来离普通开发者很远,但实际上它直接影响着 AI 服务的定价:
- 云厂商的 GPU 实例价格短期内不会下降,因为内存成本在涨
- API 服务的定价会持续受到芯片成本的支撑
- 选择模型时,参数效率比参数规模更重要——能用更小模型解决的问题,就不要上大模型
- 关注量化技术和推理优化,这些是降低实际使用成本的关键
简评
Epoch AI 的这组数据揭示了一个不太被关注但非常重要的趋势:AI 的成本瓶颈正在从”算力”转向”内存”。对于整个行业来说,这意味着需要在内存技术和架构创新上投入更多精力。对于普通开发者来说,关注高效推理方案和模型压缩技术,可能比追逐最新最大的模型更实际。
本文参考来源:Epoch AI: AI Chip Component Cost Shares | Hacker News 讨论











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容