本地 AI 正在推动数十年来笔记本电脑最大的变革
当前多数办公电脑因性能不足而无法在本地运行大型 AI 模型,普遍依赖云端处理,这带来了延迟和隐私风险。为了解决这一问题,笔记本电脑正在经历一场以 AI 为核心的架构革新。其核心变革在于引入专用的神经处理单元(NPU),它在能效上优于传统 GPU,能更高效地处理 AI 任务。同时,统一内存架构的出现打破了 CPU 和 GPU 内存分离的瓶颈,让 AI 模型能调用更大的内存池。在微软等公司的软件优化推动下,软硬件协同正将 AI 计算从云端拉回本地,预示着未来我们或许能在个人电脑上实现更强大的通用人工智能。
当前困境:本地 AI 运行的瓶颈
目前,大多数用户通过浏览器与云端 AI 模型互动。这种方式虽然便捷,但也存在明显缺点:
- 依赖网络: 数据中心一旦中断,服务便会瘫痪。
- 隐私担忧: 用户可能不愿意将个人数据发送给未知的云服务商。
- 性能不足: 大多数一年以上的笔记本电脑缺乏运行 AI 模型所需的算力,它们通常没有专用的 GPU 或 NPU,内存也仅有 16GB 左右。
在本地计算机上运行模型可以提供显著的好处:更低的延迟、更好地理解您的个人需求,以及将数据保留在自己机器上所带来的隐私。
即使是配备了 NPU 和 GPU 的高端 PC,在面对拥有数万亿参数的大型模型时也力不从心。这些模型需要数百 GB 的内存,远超普通消费级硬件的承载能力。因此,本地运行的小型模型在功能和智能程度上都大打折扣。
NPU:为 AI 定制的专用芯片
提升 PC 的 AI 性能最直接的方法,就是在 CPU 旁增加一个强大的 NPU(神经处理单元)。
NPU 是一种专为 AI 模型依赖的矩阵乘法运算而设计的芯片。相比于 GPU,NPU 的优势在于:
- 高能效: 由于只专注于 AI 计算而非 3D 图形等任务,NPU 的功耗远低于 GPU,这对于依赖电池的笔记本电脑至关重要。
- 低精度运算支持: AI 模型常使用低精度算法以减少计算和内存需求,NPU 对此提供了更好的支持。
“通过 NPU,整个结构都是围绕张量(数字的多维数组)这种数据类型设计的,”微软技术院士 Steven Bathiche 表示。“NPU 在处理这类工作负载时更加专业。”
高通率先为 Windows 笔记本电脑提供了 NPU,引发了一场算力竞赛。如今,AMD 和英特尔也推出了性能相当的 NPU,算力(以 TOPS,即每秒万亿次运算计)从最初的 10 TOPS 迅速提升至 40-50 TOPS。戴尔即将推出的 AI PC 甚至承诺高达 350 TOPS 的算力,预示着数千 TOPS 的 NPU 可能在几年内就会出现。
硬件平衡:不止是 NPU 的竞赛
尽管 NPU 很重要,但芯片设计公司不能把所有赌注都压在它上面。PC 仍然需要处理传统的计算任务,这意味着 CPU 必须足够强大,否则会成为数据处理的瓶颈。
同时,NPU 还需要与强大的独立 GPU 竞争或合作。例如,英伟达的 RTX 5090 显卡 AI 性能可达 3,352 TOPS,远超当前 NPU,但其功耗也高达 575 瓦,不适合轻薄笔记本。
因此,芯片设计师必须在性能和功耗之间做出艰难的权衡。
- CPU 负责处理传统工作负载和为 AI 任务准备数据。
- NPU 在低功耗下高效执行持续性的 AI 任务,如 AI 助手。
- GPU 提供顶级的 AI 性能,但功耗巨大。
AMD Ryzen AI 产品管理总监 Rakesh Anigundi 指出,低功耗尤为重要,因为 AI 任务(如始终在线的个人助理)的运行时间通常比视频编码等传统高负荷任务更长。
内存革命:统一内存架构
除了 NPU,另一个根本性的变革发生在内存架构上。过去,PC 的系统内存和显卡内存是分离的。当 CPU 和 GPU 需要共享数据时,数据必须通过 PCI Express 总线来回传输。
“当我有一个独立 GPU 时,它就有一个独立的内存子系统,”AMD 副总裁兼首席技术官 Joe Macri 解释说。“这种数据来回移动的方式会增加功耗,并导致用户体验迟滞。”
解决方案是统一内存架构,它让 CPU、GPU 和 NPU 共享同一个高速内存池。苹果的自研芯片是这一架构的知名范例。如今,AMD 的 Ryzen AI Max 系列也采用了这种设计,将 CPU、GPU 和 NPU 集成在单个芯片上,共享高达 128 GB 的系统内存。这种设计不仅提升了效率,还使得功耗管理更加集中和可控。
不过,这种高度集成的设计也意味着用户将更难自行升级或维修 CPU、GPU 和内存等组件。
软件协同:微软重塑 Windows
在硬件革新的同时,软件的协同发展也至关重要。微软正积极推动 Windows 成为 AI PC 的首选平台。
通过 Copilot+ PC 计划和 Windows' AI Foundry Local,微软正在构建一个完整的生态系统:
- AI 模型目录: 提供包括 Meta、Mistral AI、OpenAI 等公司的数千个开源模型。
- 智能任务分配: Windows ML 运行时会自动将 AI 任务分配给最适合的硬件(CPU、GPU 或 NPU)来执行,以实现最高效率。
- 高级功能支持: 为开发者提供 API,使他们能够构建可以引用设备上特定信息的 AI 工具,从而实现更个性化的体验。
未来展望:迈向个人设备上的通用人工智能
硬件(强大的 NPU)、架构(统一内存)和软件(智能调度)的结合,正在迅速缩小本地 AI 与云端 AI 之间的性能差距。这一趋势正推动 PC 行业告别沿用数十年的旧架构,转向以 AI 为中心的设计。
AMD 的目标是让用户“无论处理 AI 工作负载还是高强度计算,都能在手中拥有一台迷你工作站,而不必依赖云端。”
这一变革的最终目标极其宏大。正如高通 AI 负责人 Vinesh Sukumar 所说,他们的愿景是在消费级设备上实现通用人工智能(AGI)。
“我希望在未来的高通设备上运行一个完整的人工通用智能,”他说。“这就是我们努力的方向。”