通过需求侧分析,估算出中国AI生态系统当前需要约 280万 台H100等效GPU,这一数字与基于供给侧的估算(270万台)惊人地吻合。该推算首先计算出持续运行推理任务(如企业API、推荐算法)所需的基础算力,然后结合训练任务的需求,并考虑了GPU的 实际利用率,最终得出总的GPU存量。研究指出,如果未来推理需求增长5倍,到2026年中国的AI算力规模可能达到 1100万 台H100e,接近当前全球总量,这对芯片出口管制政策具有深远影响。
需求侧分析的重要性
通过分析实际工作负载(Workloads)来估算算力需求,可以为基于芯片出货量和走私报告的供给侧分析提供一个交叉验证。理解中国AI生态的真实需求,对于评估芯片出口管制政策的效果至关重要。政策制定者需要了解这些芯片到底被用在了什么地方。
这种需求侧分析还能帮助我们推断,中国公司可能从西方云服务提供商那里租用了多少算力。
核心估算方法
整个估算过程可以拆解为几个关键步骤,核心在于区分 持续运行的算力 和 总安装的芯片数量。
- 持续运行的推理算力: 估算结果显示,为支持所有推理工作负载(如聊天机器人、企业API、推荐算法等),中国需要约 23.7万 台H100e持续不断地运行。
- 推理装机量: 考虑到已部署的推理芯片实际利用率(中央估值为 55%),所需的最低推理装机量约为 43.1万 台H100e。
- 最低总装机量: 加上专门用于模型训练的 12.8万 台H100e集群,可得出最低总装机量约为 55.8万 台H100e。
- 最终总存量: 考虑到储备、运输途中、以及尚未完全上线的芯片,假设整体机队利用率为 20%,最终推算出中国的GPU总存量约为 280万 台H100e。
按用途划分的算力需求
推理(Inference)算力分析
推理算力需求是多样化的,但有几个关键发现值得注意:
- 普通用户的算力需求极小: 尽管中国有数亿生成式AI用户,但大部分是轻度使用。一个每年消耗万亿级token的企业客户,其算力消耗可能超过数千万普通用户的总和。
- 企业API是最大的单一推理类别: 估计中国国内企业API的使用约占总推理需求的 21%,相当于 5万 台H100e持续运行。尽管中国企业AI生态系统在增长,但其深度和广度仍不及美国。
- 监控、推荐算法等难以估算: 推荐系统(如抖音、淘宝)和政府监控AI、军事相关应用等共同构成了约 32% 的算力需求。这类需求难以精确衡量,因为它们可能使用专用芯片,且军事用途几乎没有公开数据。
训练(Training)算力分析
训练算力的计算方法与推理不同,它更具周期性。估算方法是基于每年消耗的“GPU小时”。
- 年度训练预算: 通过分析主要AI实验室(如字节、阿里、百度)的公开数据和研究开销,估算出中国每年的总训练算力消耗约为 2.98亿 H100e-小时。
- 专用训练集群规模: 假设训练集群每年有效工作时间约为2336小时(每年运行四个月,利用率80%),则需要一个约 12.8万 台H100e的专用训练集群。
- 对高端芯片的依赖: 训练任务需要中国最好的芯片,如H800或走私的Blackwell。这意味着,即使中国有足够的算力进行大规模推理,但在训练下一代前沿模型方面仍可能面临 实质性瓶颈。
最终数字与利用率的关键作用
从“正在运行的算力”推导出“实际拥有的芯片总量”,必须考虑两种不同的利用率。
- 装机利用率 (Installed Base Utilization): 指已部署的推理芯片在任何时刻处理请求的比例。由于夜间低谷、为流量高峰保留的余量等因素,这个数字远低于100%。此处使用的中央估值为 55%。
- 全队利用率 (Whole-Fleet Utilization): 指中国购买的所有芯片中,在任何时刻实际在工作的比例。这个比例要低得多(估算范围10%-30%,取 20%),因为它包含了在途、待安装、闲置和储备的芯片。
利用率假设是整个计算中最关键也最具争议的因素。全队利用率 1% 的变动,就会导致最终结果产生约 18.6万 台H100e的巨大差异。
对未来的预测:2026年增长情景
全球AI token的消耗量以每年约 5倍 的速度增长。基于此,可以对中国到2026年底的算力需求进行预测:
- 2倍增长: 总装机量达到约 500万 台H100e。
- 5倍增长: 总装机量达到约 1100万 台H100e。
- 10倍增长: 总装机量攀升至 2200万 台H100e。
作为参考,目前全球高端AI算力总和约为 2000万 台H100e。这意味着,在较快的增长情景下,仅中国一国的AI机队规模就可能接近今天全球的总量。这正是需求侧分析的意义所在:它不仅告诉我们今天需要什么,更揭示了未来的发展轨迹及其对全球技术格局的深远影响。