Taalas 如何把 LLM“印”到芯片上？

初创公司 Taalas 推出了一款专用的 ASIC 芯片，通过将大语言模型的权重直接硬编码到硅片中，实现了革命性的性能提升。这款为 Llama 3.1 8B 模型定制的芯片，推理速度高达每秒 17000 个 token，比顶尖 GPU 快 10 倍，而成本和能耗仅为 GPU 的十分之一。其核心创新在于彻底规避了传统计算架构中的内存带宽瓶颈，为本地化、高效率的 AI 推理开辟了新的可能性。

GPU 推理的效率瓶颈

当前，在 GPU 上运行大语言模型（LLM）存在固有的低效问题。LLM 由数十个顺序排列的层级结构组成，每一层都包含巨大的权重矩阵，这些矩阵就是模型的“知识”。

当 GPU 处理用户输入时，其工作流程如下：

反复的数据交换： 计算单元需要为每一层的计算，不断地从外部显存（VRAM）中读取权重数据。
高昂的能耗与延迟： 这种持续的“数据往返”不仅消耗大量电力，也产生了显著的延迟。
核心障碍： 这个问题被称为 内存带宽瓶颈 或“内存墙”，它限制了 GPU 推理速度的上限。无论计算核心多快，都会被缓慢的数据读取拖累。

Taalas 如何打破“内存墙”？

Taalas 的方法简单而直接：与其从内存中读取模型，不如把模型本身变成芯片。

Taalas 的核心思路是彻底绕开内存瓶颈：他们将 Llama 3.1 模型的 32 个层依次刻录在了芯片上。模型的权重不再是存储在显存中的数据，而是变成了硅片上实实在在的晶体管。

这种设计的优势非常明显：

数据流式处理： 当用户输入被转换成向量后，它会像电流一样，直接流过芯片上代表“第一层”的晶体管电路。计算结果不存入显存，而是通过物理线路直接流向下个一层的电路。
硬件级计算： Taalas 发明了一种创新的 单晶体管4位乘法器，用单个晶体管就能完成 4 位数据的存储和乘法运算，实现了极高的计算效率。
消除瓶颈： 由于模型权重已经 硬编码（Hardwired）在芯片内部，完全不需要访问外部 DRAM 或 HBM 显存，从而根除了内存带宽的限制。

实际应用中的一些疑问

这意味着完全不用内存吗？

并非如此。Taalas 芯片不使用外部的高带宽内存（HBM），但它确实在芯片内部集成了少量的 SRAM 内存。

这部分 SRAM 的作用不是存储庞大的模型权重，而是用于缓存上下文（KV Cache）和支持微调等动态数据。制造商通常不会将逻辑电路与 DRAM 集成在同一芯片上，因此内置 SRAM 是更现实的选择。

为每个模型定制芯片不是成本高昂吗？

听起来确实如此，但 Taalas 采用了巧妙的半定制化方案来控制成本和周期。

设计基础芯片： 他们首先设计了一个包含海量通用逻辑门的 基础芯片模板。
快速定制： 当需要适配一个新模型时，他们只需 定制芯片最顶部的两层掩膜（Masks）即可将模型“印”上去。
缩短周期： 相比从零开始设计一款全新芯片，这种方法大大加快了生产速度。定制一款新模型芯片的周期大约为 两个月。

对于那些渴望在没有昂贵 GPU 的本地设备上高效运行大模型的用户来说，这种将模型“固化”于硬件的技术，有望在未来实现大规模生产，带来真正普惠的 AI 计算能力。