科普:AI芯片是如何炼成的

先进的 AI 芯片是现代人工智能发展的基石,其制造过程主要分为三个核心阶段:设计、制造和封装。设计阶段使用专业软件将抽象需求转化为精确的电路蓝图;制造阶段则在极度纯净的硅晶圆上,通过光刻、蚀刻等数百个精密步骤构建出数十亿个晶体管;最后的封装阶段负责切割、测试并保护芯片,并通过先进技术将多个芯片集成以提升性能。整个流程极其复杂且成本高昂,不仅推动了 AI 性能的飞速增长,也使其成为全球科技竞争和地缘政治的焦点。

企业正在建造越来越大的超级计算机,其中包含更多、性能更强的 AI 芯片。

什么是 AI 芯片?

AI 芯片是一种专门为 AI 训练或推理(部署)工作负载而优化的集成电路。它们被用于驱动像 ChatGPT 和 Gemini 这样的大型 AI 模型。AI 芯片主要有两种类型:

    • ASICs (专用集成电路): 为特定任务高度定制的芯片,例如谷歌的 TPU,专门用于深度学习中的张量运算。
    • GPUs (图形处理器): 最初为图形渲染设计,但其高度并行的计算能力非常适合 AI 任务。NVIDIA 在这一领域占据主导地位,市场份额高达 80% 至 95%。

AI 芯片的性能大约每 28 个月翻一番,其需求量也在急剧增长。例如,GPT-3 训练使用了约 10,000 颗芯片,而 GPT-4 则据报道使用了 25,000 颗。

设计:从概念到蓝图

芯片设计是一个将高层需求转化为物理电路蓝图的复杂过程。设计师需要定义电路的微观架构,并使用电子设计自动化 (EDA) 软件来完成这一转化。

    • 迭代过程: 设计师需要在性能和成本之间反复权衡,并不断修改规格。
    • 验证与测试: 通过模拟和代码检查等方式,确保设计在制造出来后能够按预期工作。
    • трудоемкий и затратный по времени: 顶尖 AI 芯片的设计过程可能需要一年以上,并需要数万名员工的投入。

最终,设计阶段会产出一套详细描述芯片物理布局的设计文件,并将其交付给制造工厂。

制造:在硅晶圆上构建电路

芯片制造是一个极其精密且自动化的过程,在被称为“晶圆厂 (fab)”的高度洁净的设施中进行。

材料准备

    • 硅晶圆: 芯片的基础材料是薄薄的圆形高纯度硅片,通常直径为 300 毫米。晶圆必须极度纯净和光滑,以避免产生缺陷。
    • 光掩模: 类似于一个高度复杂的“模板”,它包含了即将印在晶圆上的电路图案。
    • 良率至关重要: 任何微小的污染物或失误都可能导致芯片报废。良率(无缺陷芯片的百分比)直接影响盈利能力。

晶圆制造

制造过程通过在硅晶圆上逐层沉积、构图和蚀刻不同材料(绝缘体、导体、半导体)来形成电路。主要步骤包括:

    • 光刻: 将一种叫做“光刻胶”的感光化学品涂在晶圆上,然后用紫外光透过光掩模进行照射,从而在光刻胶上形成图案。
    • 蚀刻: 使用化学物质或等离子体,将未被光刻胶覆盖的材料部分蚀刻掉,从而在晶圆上形成电路结构。
    • 离子注入: 将被称为“掺杂剂”的特定物质注入半导体材料,以改变其导电性能。
    • 互连: 在晶体管等器件制造完成后,再通过沉积和蚀刻金属层来形成连接它们的复杂线路。

这个过程会重复数百次,最终在单个晶圆上制造出数万亿个晶体管。

封装:保护与集成

制造完成的晶圆会被送到另一个工厂进行组装、测试和封装 (ATP)。

    • 切割与测试: 晶圆被切割成独立的矩形芯片,称为晶粒 (die)。然后对这些晶粒进行测试,筛选出合格品。
    • 传统封装: 合格的晶粒被封装在保护性外壳中,以防止腐蚀和物理损伤,并添加与其他电路连接的引脚。

先进封装

如今,封装本身已成为推动半导体进步的重要驱动力。“先进封装”技术可以将多个不同的芯片或“小芯片 (chiplet)”集成在一个封装内,以实现更高性能。

    • 2.5D 封装: 将多个芯片并排安装在一个中间基板上,如台积电用于制造 NVIDIA H100 的 CoWoS 技术。
    • 3D 封装: 将多个芯片垂直堆叠起来,通过硅通孔 (TSV) 技术进行连接,这种方式被用于制造高带宽内存 (HBM)。
    • 优势: 先进封装可以提高良率、缩短芯片间的通信距离,并允许将不同工艺制造的芯片灵活地组合在一起。