随着 AI 基础设施成本的讨论焦点从 GPU 转向内存,AI 的运行正演变为一场“内存游戏”。DRAM 芯片价格在过去一年中飙升了约 7 倍,使得高效的内存管理成为降低成本和提升性能的关键。公司正通过复杂的缓存策略(如 Anthropic 的分时定价)来优化资源使用,这预示着未来掌握内存技术的公司将在竞争中占据决定性优势。
被忽视的成本:内存价格飙升
在讨论 AI 基础设施时,焦点通常集中在 GPU 上,但内存正在成为越来越重要的一环。随着大型科技公司准备投入数十亿美元建设新的数据中心,一个关键组件的成本正在急剧上升。
- DRAM 芯片的价格在过去一年里上涨了大约 7 倍。
- 这使得内存的编排与管理,即确保正确的数据在正确的时间到达正确的 AI 代理,成为一门日益重要的学问。
掌握这项技术的公司能用更少的资源完成相同的查询,这可能直接决定企业的成败。
核心策略:精细化的内存缓存
对内存的精细管理已经成为 AI 服务商的核心竞争力。一个显著的例子是 Anthropic 对其“提示缓存”(prompt caching)功能的定价策略变得日益复杂。
Anthropic 的提示缓存定价页面最初非常简单,但现在它已成为一本关于如何精确预购缓存写入次数的百科全书。你有 5 分钟的套餐,也有一小时的套餐,并且围绕你预购的缓存写入量,设计了各种复杂的读取定价。
这种变化的背后逻辑很简单:
- 用户可以付费将提示词保留在缓存内存中,时长可选(如 5 分钟或 1 小时)。
- 从缓存中提取数据远比重新计算便宜,因此有效管理可以节省大量成本。
- 挑战在于,向查询中添加的每一个新数据都可能将其他信息挤出缓存窗口。
这个过程虽然复杂,但结论却很直接:管理 AI 模型中的内存将是未来 AI 发展的一个核心部分,做得好的公司将脱颖而出。
未来的机遇
这个新兴领域仍有巨大的进步空间。从硬件到软件,不同层面都存在优化的机会。
- 缓存优化: 专门用于提升缓存效率的技术正在兴起。
- 数据中心策略: 如何在数据中心内更有效地利用不同类型的内存(如 DRAM 和 HBM)是一个关键问题。
- 终端用户应用: 用户也在探索如何构建他们的模型集群,以更好地利用共享缓存的优势。