Synth Daily

阿里云新型资源池系统让Nvidia AI GPU用量暴降82%

阿里云开发了一种名为 Aegaeon 的新型资源池系统,该系统通过在“令牌级别”上虚拟化 GPU 访问,允许多个AI模型共享同一个加速器。在一项为期数月的测试中,该系统成功将运行大型语言模型所需的英伟达 GPU 数量减少了 82%,这极大地提高了 GPU 在推理阶段的利用率和系统有效输出,对于 GPU 供应受限的市场尤其具有重要意义。

核心机制:提升推理效率

Aegaeon 系统是一个专为 AI 推理阶段 设计的调度器,其目标是最大化 GPU 在处理突发或不可预测需求时的利用率。

  • 传统方式: 通常情况下,一个加速器(GPU)会被分配给一个特定的 AI 模型。
  • Aegaeon 的创新: 它在 令牌级别 对 GPU 访问进行虚拟化处理,这意味着系统可以将极小的工作单元调度到共享的 GPU 池中。
  • 最终效果: 一个 GPU(如英伟达 H20)可以同时为多个不同的模型提供服务,从而避免了资源闲置。

与传统的服务系统相比,Aegaeon 能将整个系统的“有效输出”(goodput)提升高达九倍。

显著的测试成果

该系统在阿里云的生产环境中进行了为期数月的实际测试,合作方包括北京大学和阿里巴巴的基础设施部门。

测试期间的关键数据变化如下:

  • 支持数十个不同大型语言模型所需的 GPU 数量从 1,192 个 大幅下降。
  • 最终仅需 213 个 GPU 即可满足需求。
  • 这相当于 GPU 使用量 暴降了 82%

据报道,测试中使用的 GPU 是英伟达的 H20,这是目前美国出口管制下中国买家仍能合法采购的少数加速器之一。

潜在的局限性

尽管成果显著,但这些节省效果能否在阿里巴巴自身的技术环境之外复制,仍有待观察。

  • 高度整合的环境: 阿里巴巴拥有自家的弹性 RDMA 网络(eRDMA)和高度集成的 GPU 服务架构。
  • 结果的可复制性: 这项测试的惊人成果可能依赖于一个经过 深度优化和垂直整合 的特定环境,其他公司或平台可能难以直接复制。