日本为何仍在押注定制浮点加速器？

日本 Pezy Computing 公司正在开发一系列名为 Pezy-SC 的定制数学加速器，旨在为高性能计算（HPC）和人工智能（AI）提供一种高能效的替代方案。其最新的 5 纳米芯片 Pezy-SC4s 凭借独特的 SPMD 架构和精细的缓存设计，在基因组分析等特定任务上展现出超越英伟达 H100 的潜力。日本政府持续资助该项目，并非仅为了追求性能，更是一项战略投资，旨在确保本国在关键的芯片设计领域拥有自主能力，以应对未来 GPU 供应的不确定性。

GPU 之外的选择

尽管 GPU 是目前加速计算的主流选择，但它并非唯一的解决方案。日本的 Pezy Computing 公司在过去十几年中，一直致力于研发一种架构不同但目标相同的数学加速器。他们的核心目标是将能源效率推向极致，这与日本政府新能源与产业技术综合开发机构（NEDO）的资助目标完全一致。

Pezy-SC 加速器的演进

Pezy-SC 系列芯片通过多次迭代，不断提升计算密度和效率。

Pezy-SC (2014): 采用 28 纳米工艺，拥有 1,024 个核心，并引入了同步多线程技术。
Pezy-SC2 (2017): 核心数量翻倍至 2,048 个，并增加了对 FP16 半精度数学的支持，性能大幅提升。
Pezy-SC3 (2020): 核心数再次翻倍，并集成了 HBM2 高带宽内存，进一步提升了浮点运算吞吐量。
Pezy-SC4s (2024): 这是最新的型号，采用了台积电 5 纳米工艺，核心数维持在 2,048 个，但时钟频率提升至 1.5 GHz，并配备了 96 GB 的 HBM3 内存。

独特的核心架构：SPMD

Pezy 的设计理念不同于 GPU，它采用了一种名为 SPMD（单程序，多数据） 的架构。

SPMD 架构允许程序显式地调度线程和数据，从而无需复杂的乱序执行和分支预测硬件。这使得处理器核心可以设计得更简单，让芯片能够在同等面积内容纳更多的核心。

这种架构通过精细的缓存层次结构来保持核心的高效运转：

基本单元 (PE): 每个处理器核心（PE）拥有自己的 L1 缓存和暂存存储器。
村庄 (Village): 4 个 PE 组成一个“村庄”，共享暂存缓存。
城市 (City): 4 个“村庄”组成一个“城市”，共享 L2 缓存。
县 (Prefecture): 18 个“城市”组成一个“县”。
州 (State): 8 个“县”组成一个“州”，共享一个 64 MB 的 L3 缓存。

此外，SC4s 芯片还集成了四个 RISC-V CPU 核心，使其能够独立运行 Linux 操作系统和主机软件，理论上不再需要英特尔或 AMD 的主处理器。

性能与能效比较

在实际应用中，Pezy 加速器显示出强大的竞争力。例如，在 GATK 基因组分析工具包测试中，四块 Pezy-SC3 芯片的表现超过了八块英伟达 H100 GPU。据推算，新的 SC4s 在此任务上的性能可能是 H100 的 2.8 倍。

衡量加速器效率的关键指标是 “每瓦浮点运算性能”（flops per watt）。

Pezy-SC4s: 在 FP64 双精度下约为 41 GFLOPS/watt。
Nvidia H200: 在 FP64 双精度下约为 47.9 GFLOPS/watt。
Nvidia B200: 在 FP64 双精度下约为 33.3 GFLOPS/watt。

数据显示，Pezy 在高精度计算方面的能效与英伟达的顶级产品不相上下，并且为非 AI 工作负载提供了更灵活的编程模型。

日本的战略考量

日本政府持续支持 Pezy Computing，是为了在国内保留一支设计数学加速器的专业团队，并以此作为一种对冲手段。因为你永远不知道什么时候会因为需求过高或出口限制而无法获得 GPU。

最终，日本投资 Pezy 并不仅仅是为了打造最快的芯片。更深层次的原因是维持国家在半导体设计领域的自主能力和技术储备。在一个高度依赖少数供应商的全球市场中，拥有一个可靠的备用选择是一种重要的战略保障。这确保了即使在外部供应受限的情况下，日本的科研和工业计算能力也不会完全停滞。