Synth Daily

Taalas 如何把 LLM“印”到芯片上?

初创公司 Taalas 推出了一款专用的 ASIC 芯片,通过将大语言模型的权重直接硬编码到硅片中,实现了革命性的性能提升。这款为 Llama 3.1 8B 模型定制的芯片,推理速度高达每秒 17000 个 token,比顶尖 GPU 快 10 倍,而成本和能耗仅为 GPU 的十分之一。其核心创新在于彻底规避了传统计算架构中的内存带宽瓶颈,为本地化、高效率的 AI 推理开辟了新的可能性。

GPU 推理的效率瓶颈

当前,在 GPU 上运行大语言模型(LLM)存在固有的低效问题。LLM 由数十个顺序排列的层级结构组成,每一层都包含巨大的权重矩阵,这些矩阵就是模型的“知识”。

当 GPU 处理用户输入时,其工作流程如下:

  • 反复的数据交换: 计算单元需要为每一层的计算,不断地从外部显存(VRAM)中读取权重数据。
  • 高昂的能耗与延迟: 这种持续的“数据往返”不仅消耗大量电力,也产生了显著的延迟。
  • 核心障碍: 这个问题被称为 内存带宽瓶颈 或“内存墙”,它限制了 GPU 推理速度的上限。无论计算核心多快,都会被缓慢的数据读取拖累。

Taalas 如何打破“内存墙”?

Taalas 的方法简单而直接:与其从内存中读取模型,不如把模型本身变成芯片。

Taalas 的核心思路是彻底绕开内存瓶颈:他们将 Llama 3.1 模型的 32 个层依次刻录在了芯片上。模型的权重不再是存储在显存中的数据,而是变成了硅片上实实在在的晶体管。

这种设计的优势非常明显:

  • 数据流式处理: 当用户输入被转换成向量后,它会像电流一样,直接流过芯片上代表“第一层”的晶体管电路。计算结果不存入显存,而是通过物理线路直接流向下个一层的电路。
  • 硬件级计算: Taalas 发明了一种创新的 单晶体管4位乘法器,用单个晶体管就能完成 4 位数据的存储和乘法运算,实现了极高的计算效率。
  • 消除瓶颈: 由于模型权重已经 硬编码(Hardwired)在芯片内部,完全不需要访问外部 DRAM 或 HBM 显存,从而根除了内存带宽的限制。

实际应用中的一些疑问

这意味着完全不用内存吗?

并非如此。Taalas 芯片不使用外部的高带宽内存(HBM),但它确实在芯片内部集成了少量的 SRAM 内存

这部分 SRAM 的作用不是存储庞大的模型权重,而是用于缓存上下文(KV Cache)和支持微调等动态数据。制造商通常不会将逻辑电路与 DRAM 集成在同一芯片上,因此内置 SRAM 是更现实的选择。

为每个模型定制芯片不是成本高昂吗?

听起来确实如此,但 Taalas 采用了巧妙的半定制化方案来控制成本和周期。

  • 设计基础芯片: 他们首先设计了一个包含海量通用逻辑门的 基础芯片模板
  • 快速定制: 当需要适配一个新模型时,他们只需 定制芯片最顶部的两层掩膜(Masks)即可将模型“印”上去。
  • 缩短周期: 相比从零开始设计一款全新芯片,这种方法大大加快了生产速度。定制一款新模型芯片的周期大约为 两个月

对于那些渴望在没有昂贵 GPU 的本地设备上高效运行大模型的用户来说,这种将模型“固化”于硬件的技术,有望在未来实现大规模生产,带来真正普惠的 AI 计算能力。